ChatGPT背後的打工人,月薪3000

文章來源: - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
(被閱讀 次)



作者 |徐倩影

題圖| 視覺中國

2023年第一季度,國內多家互聯網企業相繼推出類ChatGPT產品。

複旦大學邱錫鵬教授團隊發布國內第一個對話式大型語言模型MOSS,邀公眾參與內測;百度推出類ChatGPT產品“文心一言”;秘塔科技自研LLM大模型“對話寫作貓”已正式上線……且不說產品的體驗感如何,它們均提醒了中國AI企業必須加速推進。

當一眾互聯網大佬紛紛表示要在ChatGPT風口尋求新的機會時,作為人工智能下遊的數據標注行業從業者,楊科琪明顯感受到公司業務量出現了短期增長。但這種增長量是否會持續?他無法判斷,至少到目前為止,國內做AI的公司有很多,但能夠盈利的卻少之又少。

早在2017年,伴隨無人駕駛與阿爾法圍棋(AlphaGo)帶來的AI浪潮,數據標注行業逐漸進入大眾視野。同年,國務院發布《新一代人工智能發展規劃》,明確新一代人工智能發展三步走戰略目標,人工智能上升為國家戰略層麵。



圖源:圖蟲創意

2019年,即人工智能訓練師被納入國家職業分類目錄的前一年,楊科琪和朋友在中國西北的一個小縣城開啟了AI數據服務生意。楊科琪說:“實際上,職業培訓與做業務是兩回事,在數據標注公司,聰明、用功的人學習一周就能上手。”在他看來,數據標注是一份門檻低且又有些枯燥的工作,但這並不影響其成為時下中國部分縣城流行的職業之一。

2020年,楊科琪離開了初創公司,進入一家專業AI數據服務提供商企業。在他看來,數據標注行業必定要走向專業化與職業化的發展方向。

以下為楊科琪的自述。

是安逸還是無趣?

1000個工位,1000台電腦,目前有800位人工智能訓練師,他們每天坐在電腦前畫框、放大畫麵、調整框線、提交審核……這裏有空調、有網絡,每個人有不到2平方米的辦公區域。

目前,我們最大的業務是無人駕駛項目,標注員根據係統給出的方框,用鼠標細化一輛車的大體輪廓,然後將圖片放至最大,細心調整車輛邊緣的框線,再勾選屏幕左上角的車輛屬性。

所謂人工智能訓練師就是讓汽車在行駛過程中自動識別馬路。如果隻是將視頻傳給計算機,計算機是無法識別的,需要大量的標注員將視頻中的道路框出,再交給計算機,計算機多次接收此類信息後,才能逐漸學會在視頻和照片中識別出道路。



圖源:視覺中國

今年3月,德勤中國發布的《人工智能基礎數據服務白皮書》顯示,人工智能基礎數據服務下遊應用占比中自動駕駛占到52%。隨著自動駕駛AI算法的升級迭代及模型訓練數據量的指數級增長,技術迭代帶來數據需求“大爆發”。相比其他項目,自動駕駛業務的持續性更好,而且服務周期也比較長。

人工智能的三大基石是數據、算力與算法。我們數過羊、數過木頭,還數過鐵塊,涉及的行業有醫學類、安防類、現在的自動駕駛等,還接過看手相的一個項目,甲方要求我們給手掌上的各種手紋進行標注,很多員工都開始研究手相,挺好玩的。一般而言,視覺類的內容要做到機器準確識別,至少需要10萬張圖片。對於AI產品,數量越多、質量越高的數據,往往越能夠訓練出更“聰明”的模型。

標注員一天的工作內容就是畫框線,根據項目的難易程度,一個框3—8分錢,工作日8小時要畫2000個框以上,人均月收入在3000—4000元。



2023年2月16日,陝西省榆林市清澗縣,工作人員在進行數據標注。/視覺中國

以我們公司為例,人員流動率在30%—40%,因為工作比較簡單,每天8小時坐在電腦前,做著重複性工作,對於有的人而言是一份還算安逸的工作,但對另一些人而言就顯得非常枯燥和無趣。

一個AI產品的誕生一般需要經曆數據準備、模型訓練與優化、模型管理、推理應用等4個模塊,在國內已經形成了非常成熟的全產業鏈。目前,我所在的公司在做的就是數據準備,包括數據生產、數據清洗、數據標注三大方麵。像我們這種布局在縣城的數據標注公司,一般主要負責數據清洗和數據標注。清除模糊的圖片、噪聲太多的語音、錯誤的文本內容後,我們再進行畫框線和數據標注,根據甲方的不同需求進行操作。

技能等級認定中的初級工

根據《人工智能訓練師國家職業技能標準(2021年版)》的定義,人工智能訓練師是使用智能訓練軟件,在人工智能產品使用過程中進行數據庫管理、算法參數設置、人機交互設計、性能測試跟蹤及其他輔助作業的人員。

在我看來,雖然標注員也被稱為人工智能訓練師,但如果按照去年發布的《關於開展新職業技能等級認定工作的通知》的內容,標注行業內的人工智能訓練師在技能等級認定中應該屬於初級工,在其之上還有4個更高的職業技能等級。

其實,拿證和做業務真是兩回事。考取職業證書,按照職業教育的要求需要上滿 60 個課時,課程中會係統學習人工智能的概念、未來的發展方向,以及相對完整的知識構架邏輯。但是在標注行業,在數據標注公司,聰明、用功的人學習一周就能上手,隻要會使用標注工具就能勝任。

標注行業作為勞動密集型產業,運作模式主要有兩種。一種是專業AI數據服務提供商自己雇人自己做;另一種是他們接到業務後發包出去,使用更具性價比的人員或公司。我所在的公司也屬於後者,“層層發包”在標注行業比較常見。



2019年7月31,貴州銅仁。“AI豆計劃”的學院在萬山區人工智能產業扶貧孵化空間練習數據標注。/視覺中國

數據標注發展初期,就是由“眾包”模式而興起,當時有很多眾包平台,需求方項目要求有大量兼職人員接單,和目前的美團模式差不多。當年,我們的初創公司也是利用信息差,從數據標注平台接單,在市場上找更便宜的人力資源完成任務,但隨著數據標注從野蠻生長階段進入規範化發展階段,市場上的兼職人員正在減少。越來越多的兼職業務正在被像我們這樣的縣城標注公司替代。

2019年,我剛剛創業時,知道數據標注的人不多,這行屬於剛剛興起。現在,這行的入門門檻變高了,參與的人也越來越多,市場壓價現象很普遍,與剛入行時相比,價格下降了30%左右,我個人覺得數據標注市場已經有點“紅海”了。

目前,大部分互聯網企業都在自建基地,比如百度、阿裏巴巴、京東等互聯網大廠在全國都建立了基地,從而獲得政策扶持、租金減免等條件。

人工智能的下一站是縣城

人工智能訓練師流行於縣城?我覺得很正常。目前,國內標注行業的價格戰愈演愈烈,在質量、效率不斷提高的情況下,各大公司拚的無疑就是價格。隨著行業的發展,甲方需要不斷尋求價格更低的生產力區域,所以各大AI數據服務企業轉戰縣城非常正常。

在縣城辦公,房租、人力成本相對較低,同時互聯網企業確實可以解決一部分人的就業和收入問題。目前,百度擁有行業內最大的自建標注團隊,在山東濟南、山西臨汾、重慶奉節、四川達州、甘肅酒泉、江西新餘等10個地區有自建標注基地。



2022年2月21日,陝西省銅川市宜君縣。人工智能訓練師張文濤正在做地圖數據標注工作。/視覺中國

除此之外,政府補貼也是相關企業選擇縣城的主要原因。2023年1月,貴陽市人民政府網發布的《貴陽鼓勵企業吸納就業政策》中提到,貴陽市符合條件的小微企業、民營經濟組織和社會組織吸納高校畢業生就業的,給予800元/人的一次性吸納就業補貼及一定額度的創業擔保貸款。

數據標注作為勞動密集型產業,當企業更多地選在三四線城市落地,當地政府看重的則是產業化的基地建成後,帶動當地就業、促進當地經濟發展。智研谘詢發布的《2022—2028年中國數據標注與審核行業投資策略探討及市場規模預測報告》中提到,隨著人工智能成為國家發展戰略,其勢頭銳不可當,預計2028年我國數據標注與審核行業市場規模將達262.74億元。

不久前,Meta發布了史上首個圖像分割基礎模型——SAM(Segment Anything Model)。有人認為,這代表著計算機視覺領域的GPT-3時刻已經到來。有人說這一模型會替代大量的標注員,我個人認為在數據處理的精度方麵,人類無法被替代,至少目前不會,畢竟對於AI產品而言,數據越精準,模型才會越精準。

ChatGPT在社交媒體上引起了巨大的話題度後,國內多家互聯網企業相繼推出類ChatGPT產品。對我們而言,短期內AI企業對數據標注的需求量還會增加,畢竟數據標注在整個前期產品開發的過程中時間占比可能在全周期的20%—30%之間,目前這一塊的數據確實需要大量的人去做。但是,隨著平台標注自動化和預識別的發展,未來一部分標注員可能會被淘汰。

未來,數據標注這行一定會向著規範化和職業化發展,因為需求方的類型和要求會增多,也會涉及各個領域的專業性方麵。比如醫療,如果沒有醫學常識很難做好標注;金融數據也是如此,看不懂財報,就沒辦法做標注。

(應受訪者要求,文中楊科琪為化名)

seator 發表評論於
又是蹭熱度,這些人跟ChatGPT有啥關係?