一段綿延的技術史:算法背的鍋太多了
文章來源: 遠川研究所 於
- 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
上世紀五十年代,普通美國家庭每天看電視的時間“高達”6小時。顯像管技術迎來黃金時代,但質疑聲接踵而至。1950年波士頓大學的畢業典禮上,時任校長、禁酒令堅定支持者丹尼爾·馬什對電視毫不留情地開炮[1]:
“如果電視熱潮繼續以目前的水平發展下去,我們注定會成為一個白癡國家。”
時過境遷,晶體管、集成電路、GPS、Unix架構等一個個塑造現代世界的創新接二連三的誕生於這個白癡國家,電視機普及衍生出的電視辯論成為了美國大選的標配環節,但“白癡論”的加害者名單卻越印越長。
上世紀90年代,消費電子產業爆發式增長,電腦可用內存增加、圖像影音表現力增強,電子遊戲開始出現,隨之而來是關於“技術有害”的擔憂。廉價電腦生產商Commodore
64為此想了一條廣告語:
當您可以買一台能為子女準備上大學的家用電腦時,為何會買一台令子女玩物喪誌的遊戲機呢?
每種新事物的麵世,幾乎都會經曆誤解-爭議-培養的命運輪回,最終在漫長的博弈中,探索出一套行之有效的秩序規範。
二十世紀,從電視電腦到動畫遊戲,從未逃過大毒草的帽子,最新一位進場選手是算法。
人們麵對新技術的艱深造物,難免會產生相似的恐懼。其中,短視頻或更廣義的內容領域,是算法引發種種爭議的核心地帶。
然而算法的內涵並非一個“猜你喜歡”的推薦黑盒,其學術定義是“以數學方式或者計算機代碼表達的意見”,也就是說,它是一種處理信息的新生產力工具。
人類從未有過信息如此爆炸的時代。小到打車、找餐廳,大到股票交易、自動駕駛,每個人都在與信息產生互動。據IDC報告,全球每年產生的數據在2025年會增長到175ZB。
這是什麽概念?以25MB/秒的下載速度計算,下載全人類一年產生的數據需要18億年。
算法為人類提供一種與巨量信息相處的方式。作為一種應用工具,它早已深入社會生活的脈絡肌理,形塑了一個遠比下滑推薦更複雜、更廣闊的世界。
一門技術的勝利
在人工智能這個細分產業裏,“算法”是神經網絡技術流派下的產物。
2012年,人工智能學者傑夫·辛頓雙持英偉達GTX580勇闖ImageNet。他們研發的AlexNet算法模型,通過模擬人腦運轉的方式訓練電腦,以84%的識別準確率成功奪冠,一舉推高了行業準確率,證明了神經網絡在圖像識別等複雜任務上的能力。
傑夫·辛頓和他的兩名學生,他們在2012年被穀歌收入囊中
神經網絡算得上最正宗、最原教旨的“算法”。辛頓團隊的開創性在於,科技公司從中看到了人工智能產業化的愈發清晰的可能性。
算法決定了計算機識別事物的方式、並為具體的數據處理需求對應解決方案。算法的需要足夠大的算力來驅動;而算法的優化也需要大規模高質量的數據,因此算法、算力和數據被稱為人工智能三大基石,三者相輔相成。
就像汽車取代馬車一樣,算法介入大大小小的移動互聯網產品,是一種必然趨勢。
首先,低門檻的內容供給,必然帶來信息分發的效率問題。
人類一腳踏入互聯網時代後,內容供給的指數級提升。從博客、視頻網站到之後的自媒體、短視頻,互聯網讓信息生產的門檻不斷降低,供給則迅速增加。
YouTube曾在2017年初披露過一組數據,早在2016年,YouTube用戶每天觀看視頻的總時長就超過了10億小時,是2012年收看時長的10倍。為了應對視頻內容近乎膨脹的規模,YouTube開始編寫算法,利用用戶數據進行個性化推薦,從而提高推薦效率。
現代人每天接收到的信息量是1986年的5倍,相當於175份報紙[2],這種爆炸式的信息輸入規模增長,使得“如何分發信息”成為了一門技術。
即便在互聯網時代,中心化的媒介依然無法高效匹配信息的供需兩端。無論是單純的搜索,還是發布時間、視頻時長等結構化的指標,都難以勝任精準推薦的訴求,算法在內容產業的應用由此而來。
在短視頻普及前,今日頭條已經是一個基於算法的產物,用以應對內容供給增加帶來的信息分發效率問題。而這種以興趣推薦為參照係的算法,又隨著快手、抖音這類短視頻平台的出現,隨之得到應用。
2016年,“英國選手”AlphaGo在圍棋比賽上戰勝了李世石
其次,線上線下的融合趨勢讓算法成為了移動互聯網時代的最優解。
以電商為代表,在打車、外賣、招聘等一個個場景線上化的過程中,Web時代的搜索邏輯在海量的信息麵前同樣捉襟見肘,以精準匹配為目標的技術方案完成了對諸多線上化場景的改造。電商平台的千人千麵,OTA平台的精準推薦,幾乎都離不開算法的參與。
除了在短視頻中的應用,早年間關於“大數據殺熟”、“騎手困在係統裏”等討論,都可以溯源到算法在互聯網產業的滲透。
也就是說,在人們熟知的AlphaGo大戰李世石和GhatGPT出現前,算法就已經在各行各業落地生根,其定位類似於互聯網產品的一種“通用技術接口”,在不同的場景中扮演著不同的角色。
當AGI的浪潮襲來,最先應用算法的互聯網公司,也自然成為了前沿探索的橋頭堡。
一個重要的前置產業
2017年,八位發量濃密的穀歌研究員經過長達數月的合作,發表了一篇名為《Attention Is All You
Need》的論文。論文中提出了一種名為“Transformer”的語言處理架構,成為生成式人工智能興起的標誌性事件。
時至今日,在大模型、自動駕駛、具身智能等人工智能的熱門前沿分支,幾乎都能找到Transformer劃時代的身影。
正如iPhone的誕生要仰仗蘋果在iPod上積累的無數經驗和專利,Transformer架構的誕生並非孤立的事件,而是大量AI科學家在神經網絡研究的基礎上,不斷推陳出新的成果。
科技領域的許多創新看似源於偶然,但在更長尺度的周期裏,它們的誕生大多有跡可循。其中一個鮮明的共性是:下一個時代的推動者,大多是上一個時代的成功者。
2012年,在斯坦福教書的吳恩達以顧問的身份進入穀歌,主持“穀歌貓”圖像識別項目研究。吳恩達之所以選擇與Google合作,很大程度上是因為隻有Google擁有算法訓練所需要的數據和算力,而這又建立在Google龐大的數據規模和強大的盈利能力的基礎上。
換句話說,Google在移動互聯網和雲計算產業取得的巨大成功,讓他們有足夠的動力投資下一個時代的前沿技術。這種動力的具體表現,就是“穀歌貓”項目動用的16000個CPU組成的算力,這是當時產業界能提供的最複雜的計算機係統。
吳恩達在穀歌設計了“穀歌貓”項目
雖然“穀歌貓”的地位遠遠不及後來的辛頓團隊,但如果沒有搜索和雲計算業務源源不斷的數據與現金流,Google也無力進行深度學習領域的前沿探索。
台積電的先進工藝依靠的不是“十萬青年十萬肝”的口號,而是高達55%的毛利率。同理,如果中國的互聯網公司沒有建立在算法上的成功業務,人工智能的發展也會止步不前。
2021年末訓練GPT-4時OpenAI耗盡了網上所有可靠的英文文本資源,為此不惜偷偷到YouTube扒了超過一百萬小時的視頻語料;擁有如今最強開源大模型Llama的Meta,本身就是全球最大的社交媒體平台,手握天文數字的訓練資源。
另一方麵,互聯網公司基於用戶體驗對推薦算法的迭代過程,在無形中為人工智能做了許多技術沉澱。
針對推薦算法延伸出的內容生產需求,2020年,抖音和今日頭條上就已經出現了繪畫特效類的AICG功能;之後字節推出豆包大模型,“全家桶”的每一塊,都能對應上字節成熟的業務線;無獨有偶,阿裏的通義“文生圖”模型能快速上線,離不開阿裏在電商領域的長期積澱。
人工智能領域,中美之間的競爭甚囂塵上,一個關鍵原因在於,隻有中國和美國擁有全世界規模最大的互聯網產業。
繁榮的互聯網和消費電子產業帶動了芯片設計、數據中心、雲計算等一係列細分門類的建立,這些都是發展人工智能重要的基礎設施。
大模型或許看上去比短視頻更“高級”,但沒有後者創造的商業模式反哺算法研發,前者其實無從談起,兩者在產業發展的路徑中唇齒相依。
更重要的是,並非所有互聯網公司都在參與前沿領域的探索和競爭,但他們都在為這些領域的探索者提供寶貴的人才儲備。
高校可以篩選人才,但培養人才的隻能是本土優勢產業。
近年中國遊戲產業快速發展,某種程度上得益於影視產業儲備了大量特效人才;新能源車領域,傳統車企也苦於留不下IT人才。如坐針氈的豐田甚至開始鼓勵9000名員工“轉碼”,學習編程語言,轉崗軟件工程師。
馬斯克與OpenAI的阿爾特曼,兩人本身就是矽穀互聯網創業者
雲計算、自動駕駛、大模型等前沿技術領域開始繁榮,成長於互聯網產業的工程師人才,恰好能成為前者的“預備役”。說直白一些,AI公司們拿到融資要大幹一場,HR們還得從互聯網公司招兵買馬。
就像不能脫離電商談直播帶貨一樣,英偉達在AI時代大殺四方,是因為一大批遊戲玩家給黃總報銷過研發成本。事實上AI的進步,離不開互聯網公司們優化信息分發、精準匹配的漫長積累。
羅馬不是一天建成的,你不能隻在開著輔助駕駛的時候才熱愛算法。
一種被看見的價值
時至今日,自動駕駛仍然存在著一個暫時無法打敗的敵人:Corner Case。
Corner
Case指發生概率極低的事件。最典型的場景莫過於前車突然爆裝備,比如紙箱、水瓶或運豬車上跌落的二師兄。如果沒有提前的預案,自動駕駛狀態下的汽車很有可能直接撞上去。
然而,無窮無盡的Corner
Case並不代表自動駕駛是一項不值得研究的技術,它與今天處於輿論風口上狹義的“算法”其實處境類似。
2015年後,移動互聯網產業的發展進入井噴期,“家人老鐵”在千元智能機麵前迅速集結,網紅在真實的個體下沉敘事中反客為主,關於算法的種種討論與爭議由此產生。
算法是一個無比年輕的技術分支,從技術到規範,處處是亟待填補的拚圖。但從更長的時間周期看,新技術如電視電腦和自動駕駛,往往是在爭議之後創造了更大的價值。
推薦算法也是一樣,在它出現前,一個人能看到的世界是非常狹窄的。人與人之間的最大公約數,要麽是近在咫尺的學曆階層,要麽是遙遠的新聞站隊。
於是南方小孩很難想象東北人如何貓冬;縣城父母很難知道清華北大的課堂是什麽樣子;城市白領很難意識到千裏之外,有人在過日落而息的生活;一些寶藏小店、傳統手藝或者小眾旅遊美景,隻能活在限定區域的口耳相傳中。
正是因為推薦算法把信息與人高效連接在一起,才讓更多人有了“被看見”、“被討論”的機會。
今年年初,“開封王婆”頻頻登上各大平台熱搜。“王婆”本名趙梅,是河南開封萬歲山武俠城的一位演員,負責主持一檔名為“王婆說媒”的表演項目,展現大宋開封市井文化。
不料她口才極佳的“說媒”,被一眾無心插柳的短視頻博主發到網上,在網友的口碑效應下迅速走紅。不僅讓萬歲山武俠城客流迎來爆發,還讓短視頻評論區變成了全國年輕人的大型相親現場。
類似的故事在時時刻刻發生:2023年9月,一條名為“探訪‘三花’劇團開放式化妝間”的短視頻在網絡上流傳,讓這個名不見經傳的劇團由此火爆全網,吸引了大批網友觀戲。
短短三個月,“三花”川劇團通過網絡平台賣出2.5萬張票,幾乎是過去兩年多的總和,如今劇團演出場場爆滿,老川劇團迎來了新生。
無論是開封的“王婆說媒”還是四川的三花劇團,即便口才再好、技藝再高,在推薦算法誕生前,想紅遍大江南北都不容易。當推薦算法將這些鮮活的表演快速匹配全國乃至全世界的觀眾,他們就產生了前所未有的影響力——某種程度上看,智能推薦反而讓內容展現出更加多元和多彩的一麵。
當單向、中心化的媒介變成了雙向、去中心化的媒介,內容生產和分發的門檻被大幅降低,由此還帶來了一個巨大的改變:一個人的才智和技能,可以輕而易舉的創造價值。
不管是講物理學、歐洲古代史,還是探店、賣貨、做手工,每個擁有一技之長的人都有自己獨特的價值。在上一個互聯網時代,他們被信息洪流埋沒。但在推薦算法的幫助下,越來越多的人被真正看見,他們不再依賴土地、設備、工廠這些經典的“生產資料”,通過一部手機就可以將自己的才能快速變現。
四川95後小夥王光強曾親曆汶川地震,2017年九寨溝發生7.0級地震,農產品運輸受阻,許多水果滯銷,這讓他決心做一些事。
畢業後,王光強頂著家人的不理解回到故鄉,在抖音注冊了賬號“阿壩小王子”,為家鄉的櫻桃、杏子、李子等農產品帶貨找銷路。返鄉創業近五年後,“阿壩小王子”已經成為當地農村致富的一名帶頭人。
王光強(左二)與果農
2024年7月,網絡主播正式進入國家職業分類,主播們有了新職業身份。正因為推薦算法讓普通人“被看見”成為可能,才創造了全新的就業崗位。
作為一種技術工具,算法在不當使用時的確會產生負麵作用。許多人不滿當前的信息環境,但在這個線上線下無限融合的現代社會中,其實很難簡單區分哪些問題是媒介造成、哪些問題是社會造成。
算法打破了過去的社交同溫層,讓人們意識到不止有同溫層的觀點,世界上還有另一群人可能有不一樣的觀點。如果認為不使用推薦算法,這個社會就不會產生問題,其實是一種過於簡化的思路。
“有害的可能”不應該成為阻礙技術進步的理由,合理的探索、有效的幹預防範是被曆史無數次驗證過的有效路徑。
讓汽車更安全的思路不是限製發動機的功率,而是提醒駕駛員,無論如何都要係緊安全帶。