人類一直期盼能與動物進行交流,如今AI正在幫助我們完成這一願望。從鯨類的複雜社交語言到家畜的情緒表達,在破譯動物語言上,以大模型為代表的AI正凸顯其作用。隨著對動物的研究更加深入,我們也發現人類語言並非那樣獨特。更具實際意義的是,這類研究並沒有過高的門檻——或許在未來,與寵物直接對話,用的就是你自己的研究成果。
在電影《飛屋環遊記》中,一隻名叫逗逗(Dug)的狗戴著一個神奇項圈,它能將狗狗的叫聲翻譯成流利的人類語言。在現實世界中,非常訓練有素的狗可以被教會按按鈕,以回應人類語言來執行簡單的命令,如“出去”、“散步”和“玩兒”。
與動物進行交流,是人類長久以來的夢想。1973年諾貝爾生理學或醫學獎得主勞倫茲(Konrad
Lorenz)曾就該問題撰寫《所羅門王的指環》一書,後成為領域內經典科普書,很值得一讀。
近年來,已有不少用生成式AI破解動物語言的嚐試。本文將先講述是哪些技術因素促成了這些進展,之後介紹幾項相關研究成果,並以對未來的展望結尾。對動物語言的研究,不僅有助於我們更深入地理解和引導野生動物的行為,還能對畜牧業生產有所助力。對於愛寵人士,動物“語言”的研究或許能夠讓我們更深入了解愛寵的訴求,從而得以“換位思考”,更體貼地關愛寵物。而從滿足好奇心的角度,這項研究有可能從進化和生理機製方麵,為人類語言的產生提供新的視角。從更科幻一些的角度,破解動物語言過程中所積累的技術,也將可能用在識別外星生物的語言上。
更多的數據讓AI破解動物語言成為可能
2024年出版的一本關於動物語言的優秀科普讀物《聽不見的大自然——博物學家的自然聆聽筆記》,詳述了近期科學家如何使用數字技術去理解自然,還談到了過去人類在理解動物語言中走過的彎路。20世紀中期,人們曾多次嚐試教非人靈長動物使用人類語言,當時的願望是通過教它們“說人話”來評估它們的智力。這一努力失敗後,人們發現這種做法有些過於人類中心主義了。正如1974年美國哲學家Thomas
Nagel在一篇著名的論文中問道:“成為一隻蝙蝠是什麽感覺?”他得出的結論是,試圖根據人類心智和身體的框架去理解動物注定會失敗。為了去掉人類的視角,他表示,研究人員必須把自己放在動物的“umwelt”(環境),但人類永遠無法以蝙蝠的身體體驗世界。
前文的“umwelt”是生物學家創立的一個術語,用以描述生物體的生活經曆或世界觀。如果我們關注某種生物的umwelt,比如蜜蜂的,我們當然不會期望蜜蜂說人類語言,但我們會對蜜蜂的迷人“語言”非常感興趣——這是一種基於翅膀振動發聲和三維空間位置的語言,蜜蜂能用身體傳達非常細微的差異,比如陽光的變化。因此在理解動物語言時,我們首先要做的就是考慮動物如何用自己的方式,用自己的身體,在自己的世界觀中進行複雜交流的能力。
而在沒有任何先驗知識中學習到規律,正是大語言模型擅長的。大模型通過處理大量現有的語言內容來學習哪些單詞應該組合在一起,以及以什麽順序組合。例如,“他喜歡加牛奶和兩塊糖的咖啡”,大模型學會了“咖啡”、“牛奶”和“糖”這些詞經常一起使用。換句話說,大模型並不是通過被教授語法規則來學習一種新語言;也不是通過首先掌握英語,然後通過處理大量翻譯內容來學習西班牙語。考慮到人類語言和動物“語言”存在潛在的相似性,比如幾乎所有人類語言和動物的發聲都是由音節長度和音高的停頓和變化構成的,這就為基於大模型破解動物語言奠定了哲學上的可行性。用《聽不見的大自然》一書作者在FT
Tech Tonic播客中說的,“你和我無法像蝙蝠一樣回聲定位,像大象一樣吹喇叭,像蜜蜂一樣嗡嗡作響。但我們的計算機可以。”
計算機能處理人耳聽不到的聲音。人類能聽到的聲音範圍是20-20,000赫茲,而海豚能探測的頻率高達160,000赫茲;並且人工智能在識別細微差別方麵更為擅長。下麵的視頻是抹香鯨之間的對話。我們的大腦無法區分是哪頭鯨魚在說話,但是(理論上)可以通過訓練模型來識別不同抹香鯨的聲音。
考慮到群居動物交流的時候,往往發聲的動物不止一個,因此按來源分離重疊的聲音,是利用AI解讀動物語言的第一步。之後要做的是收集大量的數據。這是目前的主要問題之一。因為即使經過幾十年的手工錄音和拍攝,科學家也隻捕捉到了所需數據的一小部分。近年來,隨著設備小型化、通信技術的進步,研究者可以讓動物帶上攝像頭、錄音設備或通過無人機持續記錄數據,從而得以獲得足夠多的數據。AI模型的訓練過程,還是熟悉的配方:例如向機器輸入所擁有數據的80%,訓練後的模型可以預測剩餘20%,即動物接下來將發出什麽音節。這就像語言模型基於訓練數據,預測句子中的下一個單詞一樣。
複雜的鯨類語言
在介紹基於AI解析動物語言的具體案例之前,讀者可以想想科學界為什麽對鯨魚感興趣。從曆史文化角度來說,鯨歌在民間傳說中反複出現,人們一直懷疑鯨魚有著自己的語言。而從生理特性上,抹香鯨擁有所有動物中最大的大腦,且以家庭為單位生存。根據“社會複雜性”假說,有著複雜社交生活的動物需要演化出複雜的語言係統來應對社交需求。事實上,人們觀察到抹香鯨可通過類似摩爾斯電碼的“點擊”聲進行交流。例如多米尼加海岸附近的一群抹香鯨使用1+1+3的聲音來自我識別。前麵兩個是均勻間隔的“點擊”,之後是三個快速連續的“點擊”。隨著越來越多的證據表明鯨類的交流不是隨機的、偶發的、簡單的,而是遵循複雜邏輯構建,這就為首先研究鯨魚語言提供了必要性論證。
鯨類翻譯倡議(Project
CETI)是一項TED資助的研究項目,該研究專注於抹香鯨間的交流,計劃用人工智能將鯨魚發出的每個聲音與特定的背景聯係起來。
考慮到鯨魚的叫聲可以在很遠的距離內被聽到——最遠可達6000公裏,了解哪頭鯨說了什麽以及什麽情況下說的,對於人們理解“鯨語”潛在的含義至關重要。研究者還要考慮鯨類的聲納定位。所有有齒鯨類都有一個類似聲納發射的器官,它能用聲音創建一個超出其眼睛所能看到的世界的3D視圖,可類比智能駕駛中的激光測距雷達。因此當鯨魚向特定方向發聲時,研究者需要研究與特定聲音關聯的局部環境信息。
2024年5月7日,來自重慶大學、麻省理工學院(MIT)及CETI的研究者在Nature
Communication上合作發表的論文[1]可視為該項目的初步成果。該研究使用機器學習對抹香鯨錄音做分析並可視化,證實了抹香鯨發出的聲音是前後有關聯性的,且像人類的發音那樣,由不同特征組合形成。研究人員收集了來自東加勒比氏族抹香鯨的
8719
個尾聲數據,構建了抹香鯨的“拚音字母表”。類似人類語言,抹香鯨發出的聲音組合也不是均勻出現的,某些組合比其他組合更頻繁;不同類型的尾聲依次組合在一起,產生了一個更大的不同發聲家族,這讓人想起人類語音產生的二級組合結構(可類比拚音中的聲母和韻母)。研究還發現,抹香鯨可以發出不同的尾聲模式,而其他鯨魚則能識別出不同鯨魚發聲的細微變化,表明它們有音色判別的能力。
CETI是一個預期持續五年的項目,如能完全成功,其結果也不會是將鯨魚所說翻譯成人類語言。AI可能學會說“鯨語”,但不是對人類說的,人類隻能依據AI的結果綜合分析出鯨類在表達什麽。目前已有基於聲音檢測的程序,識別出生病或受傷的逆戟鯨[2]。如果讓AI學會鯨類在擱淺之前發出的聲音,則可提前預警,為此準備預防措施。
船舶撞擊對許多種類的鯨魚構成嚴重威脅,想象一下,如果我們能“聽到”一頭鯨魚或其群體在碰撞後呼叫聲,得到的位置記錄相關數據,必然會對未來的鯨魚保護措施提供幫助。(盡管這些數據會讓熱愛動物的我心碎。)
類似的項目還有地球物種項目(ESP),該項目試圖使用AI工具來解碼、標記甚至回應包括白鯨、夜鶯、烏鴉和座頭鯨等各種動物的叫聲。該研究的成果之一是“動物聲音基線”BEANS(the
BEnchmark of ANimal Sounds[3]),這是一個包括12個物種聲音的數據集,涵蓋鳥類、陸地和海洋哺乳動物、無尾兩棲動物和昆蟲,可用於檢測相關分類算法的性能。
地球物種項目還在嚐試合成動物聲音。如同人類的聲音可以被深度偽造一樣,鳥鳴聲也可以。
讓AI讀懂動物的情緒
不論是豬、牛或者雞,這些畜牧業中最重要的動物,正在由於工業化的圈養,而受到越來越不人道的待遇。工業化養殖不止傷害了飼養的動物,更不利於我們自身的生活環境[4]。隨著對動物權益的關注,人們想要了解諸如豬、牛等動物的情緒。這麽做不止是為了符合(某些國家的)監管,更有可能產生實際的經濟效益。近年來華為、網易等大廠都推出智能養豬項目,獲得了很多關注。
要想養好豬,首先要了解豬。近年已有多項研究,基於AI通過豬、牛、雞等動物的臉部圖片、視頻和叫聲,識別其情緒[3-6]。研究人員通過多個攝像機持續記錄動物行為,然後由獸醫等專業人士根據場景進行人工標注:例如豬在吃東西時是開心的,在被人拖走時是緊張的。研究人員將其作為訓練AI模型的標簽,然後訓練卷積(對圖像)或循環(對聲音)神經網絡模型,給動物行為進行分類;最後用專家標注的標簽當作金標準,用以評估模型的準確率。這也是這類研究的一貫套路。
一項基於豬的45秒短視頻進行情緒分類的研究[5],準確度達到89.4%。另一項專注於豬和牛的研究(使用來自6個農場的3780張圖片)[7],通過識別動物耳朵動作和眼白區域的變化,研究人員構建了這兩種動物情緒的實時分類模型。該模型將豬的情緒分為6種,牛的分為3種,準確率達到了85%。
同樣,家畜聲音也被收集訓練以理解它們的情緒。一項基於411頭豬,一生中的7414叫聲及對應背景數據,研究人員開發出分類模型,區分正向和負向情緒,準確率可達到91.4%。而一項預印本研究[8]使用了80隻雞的樣本,細致地記錄並分析了它們在不同情境下的鳴叫。為了確保係統解讀的準確性,研究者與一個由八位動物心理學家和獸醫組成的團隊合作,建立基於深度學習的模型,該係統可識別多種情緒,包括饑餓、恐懼、憤怒、滿足、興奮和痛苦。
人工智能應用於動物研究不隻是改善動物福利,更實際的是幫助檢測動物疾病。劍橋大學研究者開發的AI係統能夠檢測羊的疼痛水平[9],這有助於對常見但嚴重的動物病症進行早期診斷和治療。這項技術還可以應用於其他類型的動物。相關技術完善後,可以在動物飲用的水槽放置攝像頭,係統就能夠識別出疼痛的動物,從而及時治療,減少損失。
更貼近生活的研究,來自對寵物情緒的識別,例如文獻[10]展示了對寵物狗情緒的分類模型。研究人員根據狗的麵部圖像建模,可識別不同品種寵物狗的情緒。
當前市麵上也有不少以“翻譯寵物語言”為賣點的APP產品,然而根據當前研究水平,AI隻能夠對情緒進行粗略地劃分,並不支持想象中的與動物進行多輪複雜對話,這些APP也都是娛樂式的。事實上,由於動物和人的生活環境截然不同,與動物無障礙的交流,或許永遠是一個難以實現的夢想。
除了影像和聲音,理解動物還可以基於腦電數據。2022年的一項研究便通過事件相關電位(ERP)[11],使用非侵入的方式,發現狗能夠對人的聲音迅速進行反應,能將人類富有情緒的發聲與其麵部表情相匹配。這項研究雖然與解讀動物語言無關,但有了動物的腦電數據,將更準確、更直接地幫人類了解動物的所思所想。
培養下一代公民科學家
從巴甫洛夫的狗到珍妮·古道爾的黑猩猩,人們對動物語言和行為的研究,不斷改變著我們認識自身的方式。我們在動物中找到人性共有的部分,再反觀自身,找到人性中獨特的與崇高的部分。從動物語言研究獲得的新知越多,越讓我們意識到和我們共享地球的生靈的複雜性。例如前述的關於抹香鯨的研究,抹香鯨能夠通過節奏、語速、裝飾音的組合產生複雜的語言,是除人類語言外第一個具有組合排列特征的語言係統。自從哥白尼原理將人類從宇宙的中心驅逐以來,我們又一次發現自身並沒有那麽特殊,這能教會我們要在未知麵前保持謙卑。
然而人類可能永遠無法破譯動物的語言。子非魚安知魚之樂,對動物的情緒進行簡單分類,是基於人類專家按照自身umwelt的先入之見進行的判斷。
除了優點,我們也不該忘記技術存在被濫用的可能,以及新技術對生物倫理提出的新問題。識別鯨魚的語言後,或許會讓某些不擇手段的公司跟隨鯨魚,前往未知的漁場捕魚;即使算法能夠生成足以以假亂真的抹香鯨的叫聲(通過了抹香鯨版的“圖靈測試”),貿然將合成的聲音引入自然界已有的交流係統,也有可能改變鯨魚之間正常的交流,或引發鯨魚的焦慮,導致對野生動物的傷害。
不過,盡管這類研究在哲學上存在爭議,但其應用是具有實際的經濟意義的,值得持續關注。隨著智能家居的普及,自家寵物的一舉一動都將被記錄,為寵物開發的智能硬件,將會不僅跟蹤寵物的飲食飲水、運動狀況,還可能記錄寵物的心跳血氧等數據。擁有了這些數據,意味著我們能夠對動物開展之前受限於技術條件的研究。
同時,這也意味著可以讓更多普通人有機會成為“公民科學家”,通過貢獻數據,進行幹預性實驗,以及參與數據分析,切身參與到第一線的科研活動。例如在很多軼事中出現的有超強學習天賦的狗,但如果隻是特例的一兩隻,無法視作嚴謹的科學研究。2023年的一項研究[12]顯示,通過普通人參與數據收集,有41隻被認定為能根據主人指令拿起特定的玩具;基於收集到的數據,研究者進行了統計分析,發現了這些“天賦異稟”的狗的共性,甚至它們可被視為一個全新的品種。
類似的研究,可以在眾籌網站上由愛好者自行開放討論,完善實驗設計,募集所需資金,之後招募誌願者完成實際數據分析,最終合作撰寫研究報告。例如筆者構想,可以讓狗狗帶上類似GoPro這樣的相機,去記錄遛狗時狗與其它動物間的互動:當遇見體型明顯比自己大的狗,與體型比自己小的狗的時候,發出的叫聲(或遇見同一性別或不同性別)有何差異。人們可以構建基於類似的動物互動的AI預測模型,搭建站在寵物視角的“翻譯應用”。而非當下站在人類視角,將狗叫聲翻譯成如何想要與人互動這種“討好型”的應用。
這樣的經曆,對參與者來說會是一次有切身體驗感的科普活動,會讓他們懂得科學方法,提升批判性思維。類似的科研活動,比如記錄鳥類的叫聲和影像,門檻低、趣味性高,是大多數人都可參與的,尤其適合親子互動。