縣城裏的數據標注員:有多少智能,就有多少人工

文章來源: - 新聞取自各大新聞媒體,新聞內容並不代表本網立場!
被閱讀次數


(譚暢使用AI工具生成/圖)

2024年12月末,四季如春的雲南降溫了。在蒙自一處不起眼的二層小樓裏,十位員工對著24英寸的電腦屏幕勾勾畫畫,辦公室隻有點擊鼠標和敲擊鍵盤的“噠噠”聲。坐在窗邊的男孩搓搓手,吸吸鼻子,繼續工作。

他們在做的是針對自動駕駛車輛的數據標注工作。屏幕上顯示一種由雷達車掃描生成的4D邏輯圖層,他們需要標明圖層中的車道線、行駛區域、道路邊界線以及地麵標識指引。

數據標注是指對圖片、語音、文本、視頻等數據進行處理,轉換為機器可識別的信息,為人工智能模型的訓練和優化提供素材。“前麵有多少智能,後麵就有多少人工”的調侃,道出了數據標注在人工智能行業發展中起到的基石性作用。

2020年2月,數據標注員作為人工智能訓練師的一個工種,被正式納入國家職業分類目錄。短短幾年,這個勞動力需求量巨大的行業,迅速在一些中小城市落地生根。

“做夢都在畫車道線”

屏幕上的圖層是黑白色的,像醫學治療中的X光片,主幹路在布滿黑灰噪點的陰影裏,以更深的顏色突出顯示。坐在屏幕前的數據標注員如同看診的大夫,指著圖中一片霧蒙蒙的陰影區域比劃一圈,“這是綠化帶,在道路邊上,因為它有明顯的分層。”

員工們熟練地滑動鼠標,畫麵不時翻轉,呈現立體三維圖,或俯視平麵圖。光標牽動著紅色坐標線在畫麵上移動,定下的點變幻成綠色,多點連成線。員工每畫出一條線、一個框,都意味著幾分錢到手了。

工資,在這裏是以分為單位累計的。

“我們按計件結算,一天可以標120塊錢,每月能賺三千出頭。”在蒙自,這座隸屬於紅河哈尼族彝族自治州的縣級市裏,一間約170平方米的辦公室和12名數據標注員,是雲南凱瑞科技有限公司現有的全部家當。27歲的彝族女孩李亞梅是公司裏最年長的數據標注員,她高中學曆,出身於蒙自農村,如今是一個兩歲孩子的媽媽。她想通過這份工作,給孩子賺點尿不濕和奶粉錢。

月收入兩三千元不算高薪,但相比於許多奔波勞累的工作,對著電腦重複操作界麵8小時,就可以賺得這份收入,李亞梅感到滿足。

以前,李亞梅做銷售寬帶的話務員,收入差不多,每天連續撥打7個小時電話,時常被人誤會為騙子。那是份挑戰她性格的工作,“好緊張啊,就希望對麵不要接電話”。

數據標注這份工作,李亞梅沒經麵試,就直接被老板邢開瑞錄用。邢開瑞也是27歲,他剛創業,缺人,對員工不設置門檻,“隻要你願意來,那來就好了”。

李亞梅的同事們,有從蒙自二本學院畢業找不到工作的本科生,有從山東老家追隨女友到蒙自尋生計的小夥子,也有在夜市裏跟城管“打遊擊”的燒烤攤販。李亞梅記得,有次一個外賣員來送餐,立馬看上了這個“坐著不動”的工作,很快辦理了入職。

實際上,這份工作普遍門檻很低。一位做過數據標注的大學生將自己比作工業流水線上的“電子螺絲”,內容枯燥,節奏緊張:小圖一天要拉兩三百個框,大圖六百個框,每天填表記錄工作量,每周統計一次,數據不達標就要麵臨加班,“有時候上個廁所就完不成了”。一起來的三十多個實習生,中途走了三分之二。

“我剛開始接觸的時候,晚上做夢都在畫車道線。”李亞梅聽老板講,這份工作的意義在於促進自動駕駛汽車提升性能,那是李亞梅接觸不到的東西。她不想那麽多,“覺得枯燥,累到堅持不下去,我就想到小孩,就又能堅持。”

“我們做的所有東西都是為了訓練人工智能算法模型,隻有不停地標,算法模型才能訓練得非常強大,直到模型非常完美,人就可以不用再標了,以後新生的內容直接過模型就可以。”在互聯網大廠從事數據標注九年的魏盈(化名)告訴南方周末記者,她曾在兩家互聯網公司製定標注員操作規範。

魏盈介紹,訓練一個成熟的人工智能算法模型要曆經很多環節,算法工程師首先要就可行性進行內部評估,如果可行性較高,就在數據庫中“跑”出百萬條數據,再由專人總結數據特征、書寫標注規範,標注員再根據規範進行標注。數據樣本經質檢合格,最終都被用於訓練算法,樣本量越大,種類越豐富,算法模型識別就會越準。

數據標注的種類繁雜,除了自動駕駛車企外,還涉及醫療、金融、家居、互聯網公司等各個領域,與人工智能相關的各行各業普遍對數據標注有旺盛的需求。

在安徽合肥,大學生宋雨婷也在實習時做過數據標注工作,月入兩千元。她要根據不同音色和主題進行英文音頻轉寫,每天登錄公司專門的接單平台後,播放一條兩分鍾的音頻,將其分割,每句包含有效信息的英文間隙精確到不得超過0.5秒空白,轉寫後提交,如此重複完成十幾條音頻任務,涵蓋上千個片段。

另一位在科大訊飛長沙分公司做過數據標注工作的大學生向南方周末記者介紹,他曾負責給AI對小學試題生成的答案打分並糾正錯誤答案。一天下來能完成120組有效人機對話,80組修改,以此幫助AI係統升級。

魏盈這麽形容人工智能與數據標注員的關係:人工智能外表是一輛豪車,打開車門會發現,其實有一百個人騎著自行車抬它。

“隱秘而偉大的事業”

邢開瑞對人工智能的了解,也是隨著進軍數據標注行業一點點深入的。準確地說,他是抱著挖掘商機的野心,去擁抱人工智能。蒙自變成他理想的掘金地。

“蒙自市和周邊一些小縣城的年輕人外出務工,要麽就來蒙自,要麽就去省會昆明。”邢開瑞相信,作為紅河州的州府和經濟中心,蒙自有充沛的勞動力可雇用。

“我們主要對接自動駕駛的車企,數據標注合格率必須達到98%-99%,隻有合格率越高,AI才學得越精準,不容易出錯,畢竟自動駕駛人命關天。”邢開瑞說,他將來或許也是為國家人工智能發展作出微薄貢獻的人。這樣想來,他更覺得自己在小縣城裏,做著一件隱秘而偉大的事業。

他曾經幹過銷售、酒吧服務員,也追逐過飛盤熱潮創業結果失敗。2023年,AI隨著ChatGPT問世在網上成為熱門話題,邢開瑞聽朋友提及“關鍵詞標注”的商機,隻是朋友也不知道如何起步。

邢開瑞查資料後明白,那是人工智能發展的必備基礎工作,專業叫法是“數據標注”。對小縣城來說,新詞實在陌生,這既代表數據標注在這裏有發展潛力和空間,也意味著啟動資金難拉,人員難招聘。

創業初期,邢開瑞沒錢,也沒辦公地點。他找了幾十人拉投資,四處碰壁,“因為沒人聽說過數據標注,更不知道怎麽做、風險多大,甚至覺得這個東西就是騙人的。”

那段時間,邢開瑞將辦公室設定在自己家。那是一棟掩在深院裏的破舊居民樓,樓外牆麵斑駁,院門左拐是一家情趣生活館,右拐是派出所,在對麵的馬路牙子上,整日蹲著一群尋活的農民工。

這辦公環境與聽著高端的“數據標注”根本不沾邊。邢開瑞一遍遍給來應聘的人吃定心丸,“旁邊就是派出所,有事你就大喊一聲,他們也能來救你。”

八個月前,另一個彝族女孩陶致萍來到這家公司時,邢開瑞已經靠接幾個項目賺了點錢,租下一間小辦公室。但辦公室外那扇半掩的卷簾門,看起來還是不太靠譜,陶致萍猜可能是傳銷組織。一轉眼,她已經成為公司骨幹,手腕因長期在鼠標墊上摩擦生出紅繭。

陶致萍的父母對這份工作也疑惑,他們問女兒,是不是要提著油漆桶,在大馬路上劃線。邢開瑞回憶,他麵試過上千人,但是知道數據標注的不超過5個。

在小縣城做一門新概念生意受阻的經曆,吳玥也有過。“我剛開始做數據標注的時候,地方不大,知道的人特別少,招過來的第一批員工很多都跑了,感覺我們在做詐騙。”吳玥說,2020年初,他與朋友在山東省東營市廣饒縣創立的團隊隻有五六個人,一直做到2023年還在賠錢。

“數據標注這個活相當於包工程,以攢人頭為主,就需要大量人。”如今,吳玥的公司有固定成員六十多人,因公司與職校建立合作、產教融合,還有近230個學生可以按需動用,緩解人員流動的不穩定性。

吳玥的公司發展順利,很大一部分原因是他得到鄰近的利津縣政策支持:針對規模20人以上的公司,每人每月補助1000元,場地免費,政府還包了裝修費用。“利津縣年輕人流動率大,政府要把年輕人留下,需要有大量勞動力(需求)的產業,就盯上了數據標注行業。”

累積的人脈資源有了政策的加持,吳玥的公司從此前集中做無人駕駛的道路識別數據標注,逐漸拓展到語音類采集、醫療領域標注以及智能物流數據標注業務,而且壯大規模,慢慢合並了縣城裏其他幾家小型數據標注公司。

“基本在四五線城市”

多位從事數據標注的受訪者告訴南方周末記者,一二線城市的大型公司為節省成本,往往會把數據標注業務外包給中小城市的數據標注公司。“如果花大價錢讓正式員工來做這麽簡單的事情,用人成本太高,他們付不起這個錢,隻能是在偏遠的城市。”魏盈說。

魏盈在一家互聯網大廠參與過三次業務結算。她向南方周末記者介紹,采購人員一般通過招標尋找供應商,每家供應商提前報價。為節省成本,公司會在其中選擇價格最便宜的,後根據實際采購價定妥每條數據標注價格,最後按照質檢通過的數據量結款。

這樣的一手資源是眾多數據標注供應商的首選,找上門求合作的供應商有幾十到上百家。這兩年,魏盈參與的三批體量相當的業務采購價越壓越低,第一批每月6710元,第二批每月5677元,第三批降到每月4817元。

魏盈估計,除去外包公司抽成、管理費、稅費等等,標注員每月工資能夠拿到采購價的三分之二已較可觀。例如按4817元每月的采購價,最終到數據標注員手裏,可能稅後不到2500元,員工想要增加收入,就得加班。“能拿這麽低的價格,數據標注團隊絕對不可能在北京上海,也不可能是在繁華城市,基本上都在四五線的小城市。”

邢開瑞也會通過眾包平台領任務,他拿到的項目時常是被層層分包的低價訂單,“有的價格低到你倒貼,賺的還不夠發工資。”

扭轉創業頹勢是在2024年9月,邢開瑞終於跳過了層層分包商,直接與一家大型眾包平台搭上線。那次合作項目完成後,他發完36名數據標注員的工資,還餘出兩萬元。由於數據做得漂亮,新的合作很快就找上門來。

安徽智成長科技有限公司旗下的“傘雲智慧”也是一個大型線上眾包平台,範陽是其創始人之一。他向南方周末記者介紹,層層分包的模式中,每一環都會被扣除至少20%的利潤,形成一條越向下越低級的食物鏈,以至於很多拿不到訂單的數據標注公司,因入不敷出而倒閉。

隨著人工智能的進步,數據標注的門檻逐漸變高,也成為在縣城發展的新挑戰。

李亞梅發現,他們如今接的道路識別項目,準確率比以前高出許多,對數據標注員提出的要求也越來越精確。同一個項目,第一版本隻需員工標明車道線,提交後甲方要求更迭到第二版本,員工要標明普通車道和非機動車道,等到第三版本規則改變,員工要精細化識別各種交通標識。“後麵新來的同事怎麽培訓都不會,除非從頭培訓,把前麵的版本都教一遍。”

吳玥也發覺人工智能進步迅速,他長期與研發無人駕駛的車企合作,三四年前,數據標注員主要做2D圖片拉框和分割業務,那時自動駕駛係統還沒有預識別功能。如今2D類項目預識別已經能達到準確率85%,隻需要人工進行微調。

“機器識別準確率變高以後,簡單的項目變少,人力需求也變少,隨之而來可能是一些難度比較高的項目。”吳玥在接醫療、外文翻譯等相關數據標注項目時,會優先選擇專業對口的本科生進行培訓。

當數據標注的價格降低,而門檻又逐步升級,範陽預估,數據標注企業未來會大幅度被淘汰。他分析,一方麵是不專業的數據標注公司加劇了行業內卷,亂象叢生;另一方麵,很多科技公司受限於大環境,縮減科研投入,進而流向數據標注業務的價格也更低。

但邢開瑞不這麽想,他對數據標注的未來充滿信心。2024年整個12月,他都在熱火朝天地籌備新的數據標注基地,以每年二十多萬元的價格租了一棟四層小別墅,預計招聘200名數據標注員,“現在到處都在裁員,我還在特大規模招人。”

“未來人工智能發展需要用到的訓練數據涵蓋各行各業、千奇百怪,是我們想象不到的那種多,數據標注短時間內肯定是不會消散的。”邢開瑞堅信,隻要人類存在,就會發展人工智能;隻要人工智能發展,就需要人來訓練;隻要需要人,他就有錢賺。

查看評論(2)