2017-05-25 阿朵 張西工作室 張西對話--海外留學生(20)
簡介:張龍飛,1988年出生,華中科技大學本科畢業,目前是紐約州立大學布法羅分校計算機博士。現在在做音樂人工智能的拓荒工作。
專業研究方向是人工智能和音樂結合,他組建的團隊在啟動智能機器替代人工作詞作曲,把人類的技術革命推到一個新的高度。——編者語
張西:你對音樂在行?
張龍飛:其實我也不是很懂音樂,我喜歡聽音樂,但也沒有到專業的地步。我是學計算機的,三年前就想做人工智能相關的項目,但技術門檻比較高。當時一直在找做什麽方向比較好,最開始是想做圖像,但是圖像我想做的時候大家已經做的已經比較成熟了,我就一直在關注。去年的時候看到一個報道,說現在新聞媒體開始用人工智能來寫新聞稿了,就是已經開始商業化了,我就想,能寫新聞的話,能不能寫歌詞啊?我當時其實就是想做歌詞, 因為我覺得歌曲我大概還不知道怎麽做。
張西:大膽想像。人工智能做歌詞,可以實現嗎?
張龍飛:因為當時隻想做歌詞,然後就去找真正研究機器學習或者深度學習的朋友,找他們論證我的想法。因為我不是這個領域的專家,大概懂一些,我就反複和他們聊怎麽去實現我的想法,聊後覺得我好像是可以做到,就是如何提升效果的問題。然後就開始組建團隊。我先把技術核心的問題搞定後,就去找趙陽明天。我希望在音樂方麵,能有一個合夥人。大概去年底,我們就很清楚,應該怎麽做歌詞了。
張西:第二步開始作曲?
張龍飛:對呀。既然可以作詞,為什麽不能作曲呢?於是,我們把曲也加進去了。這樣,趙陽明天身為鋼琴博士,就可以發揮他的專業特長了,因為作曲完全屬於他的領域。忙乎到今年二月,我們發現基本的技術都實現了,還不敢說效果很好。但我想,應該把我們的想法告訴外界,看看市場反響如何。所以二月份,我們就做了一場宣傳活動,大家還蠻感興趣的,也問了很多有爭議的問題。比如說人工智能與音樂合成,對音樂作曲家的影響,對音樂人的影響,還有對版權問題、使用的市場等的影響。這些疑問,也給了我們很多思索。
張西:然後呢?
張龍飛:我們就把產品又進行改進。到四月份,我們開始見投資人,拉更多的潛在合夥人,跑這些活動也是一方麵宣傳自己,另一方麵也引入更多的合作夥伴。再接下來兩三個月我們要接觸以音樂為生的音樂愛好者,跟他們商量做一個專輯出來,這就是未來兩三個月要做的事情。
張西:如何把技術真正的運用到音樂製作裏?
張龍飛:其實我們並沒有很清楚,這也是投資人問的比較多的問題。這個東西給誰用?怎麽賺錢?商業模式要麽吸收足夠多的流量,功能足夠好;要麽給一小部分人實現滿足他們商業需求,音樂人要拿音樂賺錢,讓我們幫他;要麽減少製作的時間,提升它的品質;要麽就是提供它需要的東西,這樣的話就可以賺錢。這些事情,都是未來兩三個月,我們要去做的。這個問題如果能回答的清楚,很明晰,我們的產品就算是真正成功了,也可以賺到錢了。
張西:音樂領域的一次革命。
張龍飛:目前我們的產品質量沒有很好,但用到實際的創作商業中,還有一點距離。但我們團隊對此很有信心。
張西:小時候上過補習班嗎?
張龍飛:沒有。我小時候好像天天就是玩,沒壓力,過得很開心。到初高中時,開始感興趣組裝電腦。對了,上幼兒園時,我學過一點點鋼琴,初中學過一個暑假的吉他,但隻是淺嚐輒止。
張西:何時博士畢業?
張龍飛:應該還需要一兩年吧。我基本上暫停學業了,導師也比較支持我創業,給了我一點時間。因為時機比較重要,有可能再晚半年,可能這個項目就是別人的了。
張西:比如我想用你的人工智能技術作一首愛情歌曲,怎麽做?
張龍飛:人工智能技術,目前主要就是基於一個神經網絡,這是它背後技術的根本,其實跟人腦內的神經是有關係的。人的記憶也是各種事物之間的聯係,這就構成了我們的記憶網。
從最新的人工智能技術來看,還真不是那麽理想化,就是說我先用數學公式這麽一算,然後我們把它實現了,這個理論上有一些仿生學的意思。 這完全是個人的理解。
前幾年的圖像的應用比較多,包括語音識別、圖像識別,這些應用也比較直接。然後到了後期,已經開始有決策這一步了。 音樂是另外新的東西,變成創造的東西,那就又不一樣了,這其實是一件非常難的過程。因為人腦運算,還有存儲量是非常強大的。如果您要一首愛情歌曲的話,那我們肯定是首先要去找很多的愛情歌曲,我們要建很大的一個數據庫。
張西:可是數據庫的建立,歸類以及處理都是要錢的。
張龍飛:這就是為什麽現在我們無論產品種類還是效果,短時間內都無法達到很高的要求。因為資金的要求是不小的。你要計算機做一件事情,比如說識別貓、狗或寫一段音樂,你首先得很明確地告他, 給它上一張圖片,這個圖片的哪一塊是貓?哪一塊是狗?要標注好。比如說這個圖片裏有貓、狗、人、車、樹,就這一塊是貓,把它訓練出來,給它一億張圖片,就意味著你要處理一億張圖片,然後標注它哪裏是貓,還打邊界框,這步需要大量人工幹涉。
張西:噢,我要暈了。
張龍飛:音樂也是這樣子的。之前是我們手工做,但音樂你要標注好,哪些軌道是吉他,到哪裏是鼓、鋼琴,標注清楚了,它才能知道。包括愛情歌曲,比如說你輸入隨機1000首歌曲,很難知道哪些是愛情歌曲,你得給它一千首全是一樣類型的歌,然後你告訴它這裏麵的歌組成是什麽樣子、結構是什麽樣子,然後它在裏麵選擇。就是我剛說的用神經網絡,能找到這裏麵的模式或者關聯,這其實就是音樂理論吧。但這個關聯詞是非常複雜的,算出來是很龐大的一個關聯模式,得找到規律。有點像人學習的過程,人學習就是說我做十道加法題,然後整個十道我會了,那麽可能這一千道我都會了。但你先得做對十道題,那剩下的以後就都會了。
張西:就是說,我要作的那首歌,你們得輸入一萬個類似的歌,它才能找到。
張龍飛:一萬到十萬吧,數據越多效果越好。但這裏麵還存在著一些隨機的過程。我們理解成創造的過程。這跟人創造是一樣的,就是我要進行很多錯誤的嚐試,那這些嚐試結果可能就是,稍微隨機、隨意、隨行的東西,間接也可以做到。 比如說我輸入愛情歌曲,不可能出來個搖滾樂。
現在巨大的局限就是,人其實是比較擅長於從一個小樣本,就是很少的東西裏麵學習一整套的東西。比如說我剛說的加法,可能做了十道題,你就可以之後所有的都搞定,你會了十位、百位,那你千萬、十萬、百萬位的都會了。但計算機不一樣,計算機它十道題還不夠,你可能要給它輸十萬道題它才能做,所有人工智能都建立在海量的數據之上。這也是我們效果還不夠的原因,因為我們數據集還不夠。
張西:你們的瓶頸是沒錢。
張龍飛:對。無論采集、分類,標注都是需要成本的。音樂也是,當然音樂還有一個巨大的問題,就是它確實有限。比如說你想學某一個歌手的歌,那一個歌手再高產,它可能也就幾百首歌, 從人的角度來說很多了。但就整個業界來說,這是一個可以忽略不計的數據。就像我剛才說的圖片的數據,為了訓練一個貓、狗,它可能都是幾百GB的數據圖片,才能識別一隻貓、一隻狗、一種東西。這不僅是我們,也是大公司、所有業界最需要解決的問題。現在可以識別人的聲音,字體,圖片,但是能不能讓計算機去畫一隻貓、一隻狗、一個車,寫一篇文章,唱一首歌,產生一段語音,這個還有一段路要走。
張西:哈哈,我寧願你們的速度慢點,否則詞曲作者都要失業了。
張龍飛:就算我們慢了,業界其他人照樣也要做。我剛才說,既然識別了貓,那我就能識別狗。確實貓、狗有非常多的共性,它們都四條腿,體型也差不太多, 甚至習性有共性。它們都有很多共性,那能不能從貓已經算的東西,再很快地轉移到狗,減少狗運算的時間?這也是最新的東西,轉移到其他領域也是這樣的。
還有一個特點,就是能夠解決小樣本的問題。我假設有很多貓的圖片,但狗的圖片很少,或者世界上有些稀有動物它可能圖片可能就很少,但是我偏偏就想識別它,我想保護這個動物,比如說瀕臨滅絕的鳥。但那個鳥本來就少,又生長在草林裏邊, 你想要識別它,你可能還真做不到,那怎麽辦呢?能不能識別其他種類的鳥,快速遷移它這裏來,或者同屬性的鳥。架很多攝像頭,我想知道它的習性,但是我又不想跟其他鳥搞混了。這個已經很難了,一旦能把我剛才說的解決了,那它能爆發出來的影響力可能無法想象。
張西:爆發影響力的同時,可能也爆發了社會問題。
張龍飛:對,可能會引發人類社會很多根本性的變化。但這個路還要走很長,至少十年、二十年吧。
人其實是非常聰明的,非常善於學習。因為我從圍棋中看到了這一點。圍棋大師說這個機器人真的有我們原來沒有的走法,那我就學習他們怎麽走,幹脆不把它當機器了,我就把它當成一個人去學, 然後我再破它。因為圍棋已經到這個地步了,那就能把人類頂級的圍棋幹掉了,那以後圍棋還要不要人下?
我看到的圍棋大師確實是大師,他們覺得機器是有它的走法,有它的先進性,我們也很驚詫科技的發展,但我們有自己的理念,有我們的哲學。因為圍棋是有大量的哲學思想在裏麵。機器探索了一些我們可能從來沒有探索過的東西,也幫助我們提升,事實上人變的也很快。如果機器能產生出比較好的音樂,我個人覺得這些作曲家、作詞家也會發生改變。
我覺得最頂級的人肯定不會影響到,首先音樂的門檻降低了一點,把裏麵一些優勝劣汰,可能就變得更嚴峻一些,有些人可能更容易被機器給淘汰掉。舉個例子,電子技術發展了這麽多年,但一些大導演依然還願意堅持用膠片來拍電影, 因為它有它的藝術追求。回到這些音樂或者電影或者文學的本質,其實還是有它比較高層的創造,這些創造計算機能不能達到都是一個問題,別說十年、二十年,這個已經複雜到很難了。我們低估了人腦、人運算的速度和能力,還有它的信息存儲量。
張西:照你所說,人也是一台非常複雜的計算機。
張龍飛:人其實是很複雜的,但現在硬件也在飛速的發展,人其實最厲害一點,他是非常低功耗的機器,非常地節能。計算機如果我要算這麽多東西,它的耗電量都是非常驚人地,非常耗能、它發非常多的熱,需要散熱,甚至可能都要用液氮散熱,所以它非常耗能。但人完全不需要這一步,比如說讓計算機寫個詞,那裏麵熱的都著火了,但人寫個詞不會怎麽樣的,所以人是一個低功耗的機器。如果人像計算機那早就燒沒有了,細胞早就已經燒死了,但是細胞可以這麽低的能耗,完成這麽複雜的工作。我覺得其實人工智能在未來會發生一些重大的變革,這個是曆史的潮流,誰也無法阻擋。
張西:就像當年工業革命的時候,紡織機一出現,工人開始破壞機器。
張龍飛:最終紡織機代替了大量手工。就是您說的,這中間是一個很痛苦的過程,但確實那是人類的變化,工人們就做其他的工作去了。這中間過程因為我們有了曆史的教訓,人類還是比較善於學習以往經驗,可能會做一些改變, 比如說新聞產業,我剛才說的寫新聞,這個已經在發生了。CNN都在用。這是我去年看到的新聞,那就意味著前幾年已經在做的這件事情。現在他們在做東西,爆出來我們就無法想象了。
張西:我反對人工智能的快速發展。
張龍飛:計算機發展是指數級的發展,就是我現在也想象不了五年之後是什麽樣子,其實像您這樣,反對的聲音也特別大 。
這就是比較現實的問題,也就這半年吧,要真做不出來,估計也就做不出來了,找做其他的事情去吧。但還真不知道多大的市場,其實做音樂教育給小孩子也挺好的,這也是我們再過兩三個月要做的事情,找一個點其實就好,到大家聽到流行音樂的那一步還早。
張西:能想到這已經很超前了,很前瞻了。
張龍飛: 上周我去矽穀,見到我在蘋果的一個師兄,他說蘋果現在做了很多事情。比如說你拍了一個小時的視頻,它可以剪出裏麵它覺得重要的部分,然後再配上音樂,形成一個小的電影,那這就是一個電影。
張西:它自己就剪了,不用人工?
張龍飛:不用人。它會有選擇,會配音樂,會把視頻跟圖片都加在一起,這個很驚人。
張西:天呀,已經到這個程度了。
張龍飛:這是電影未來很重要的一個趨勢。我看到了幾家公司在做類似的事情。但是還跟我們音樂一樣的問題,就是這個技術到底怎麽用?我們也在找我們的點,但電影肯定也有它的點,看怎麽樣把這個用過來。
張西:這個東西真的挺好。許多人不想花太多時間做剪輯。
張龍飛:這有點像我們P圖,原來屬於攝影師這些專業人士幹的,但是這些自動P圖軟件開發以後,已經很容易了,甚至不用P了,按一個點,一個個鍵就全部出來了。原來我得找一個攝影師,花一個50或者100塊錢,幫我把這張圖片P一下,但現手機軟件就可以做到。那以後大家就開始自然做視頻了,不用剪了。蘋果都可以做到。
編輯:阿朵 責編:李明澤
張西工作室網站:http://zhangxistudio.com
張西工作室微博:http://m.weibo.cn/p/1005056184049797
版權所有,如轉載請注明轉自張西工作室