數據標注工作室賺錢嗎 數據標注行業的前景( 二 )


AI快速發展的背后 , 一批批“老師”換血 , 流動率相當高 。 “做文本標注的人員 , 現在越來越少 , 圖像標注的30%的流動率 , 語音、視頻常年都是對半開 。 而且現在的95后、00后愿意做的人少了 , 一般呆過三個月就不愿意繼續干了” 。
3年時間過去了 , 劉夢緣不斷和老同事告別 。 但她從枯燥無味的工作中堅持了下來 , 她記不得自己標注了多少圖 , 只覺得自己是踏上了人工智能的大潮 。
對那些新晉的員工 , 劉夢緣也是如此描述 , “我們是走在智能時代前面的一群人” 。
巨頭來了
行業的分水嶺出現在2019年初:幾大互聯網巨頭紛紛意識到數據的重要性 , 并著手建立自己的“數據工廠” 。

數據標注工作室賺錢嗎 數據標注行業的前景

文章插圖

據媒體報道 , 截至今年3月 , 百度山西人工智能數據產業基地中 , 就擁有超過3000位標注師 , 主要涉及自動駕駛、人臉識別等內容標注 , 其中86%的員工為90后;字節跳動在北京、天津、濟南、武漢各地 , 也招募了4萬名數據標注師;騰訊更是直接把平臺放到了線上 , 讓標注師變成了一種“全民兼職” , 稱為“眾包” 。
巨頭的加入一方面是為了市場和成本 , 另一方面也是出于數據安全考慮 , 所以在內部搭建專門的標注團隊顯然是一個好選擇 。 但是 , “模型的訓練和數據需求是周期性的 , 任務不持續 , 今天有活、明天沒活 , 人員容易流失 , 管理成本很高” , 劉夢緣能理解大廠擺出“眾包”的原因 , “我讓手下的人去試過平臺的兼職標注 , 單個標注幾分錢 , 一個月的收入在2000元左右 , 比起讓外包來做 , 省了一半還多 。 ”
“大廠出手之后 , 市場最后拼的就是成本” , 那段時間劉夢緣所在公司業績下滑了40% , 而且做出的標注數據質量也差很多 。
數據標注工作室賺錢嗎 數據標注行業的前景

文章插圖

圖片來源:Boss直聘
據懂懂筆記了解 , 2018-2020年數據標注師行業平均薪資為5000-6000元 , 如果晉升為項目主管或者更高級別的項目總監后 , 月薪才能向5位數靠攏 。 而這一薪資標準到了2021年 , 在一些求生的外包“小廠”內 , 不升反降 。
數據標注工作室賺錢嗎 數據標注行業的前景

文章插圖

圖片來源:職友集
巨頭涌入 , 薪資縮水的“大趨勢”下 , 能窺探出標注師行業的“小趨勢”:許多數據標注就像被人精心種下的水稻 , 還未到秋收季節稻穗就掉進了土里 。
年初 , 劉夢緣單獨接了一個“私單” , 賺了2萬元 。
那是一個大廠“丟”出來的單子 , 做無人駕駛的數據標注工作 , 由于公司手頭上的人員都撲在另一個項目上 , 她拉了之前的一些老同事和10個兼職學生 , 干了個“包工頭”的活 。
已經快1年沒有親自上陣標注文件的劉夢緣 , 只能硬著頭皮和所有人一樣移著鼠標 , 頭頂、脖子、肘部、手腕、膝蓋……都要一個個地標出來 。 整整一周 , 一群人完成了幾萬個點位的標注——他們看似在科技的潮頭 , 干的卻是苦力活 。
本以為這單生意之后 , 可以繼續接小單 , 可好景不長 。 “4月份開始 , 很多新團隊出現 , 壓價特別狠 , 原來是標注的報價按毛算 , 現在報價單上都出現幾分錢了” 。
數據標注行業有一套分工流程:巨頭把任務交給中游的數據標注公司 , 再由中游包給下游的小公司、小作坊 , 有的小作坊還會進一步眾包給“散戶”:比如兼職學生 。 一單生意幾經轉手 , 就造成了行業眾包中介層疊越來越嚴重 , 利潤所剩無幾 。
“AI 肯定是未來的大趨勢 , 但我們這些小公司很迷茫 , 聽說很多公司都不干了 。 ”劉夢緣本想著“私單”做得差不多了之后就出來單干 , 可這樣的行業情況下 , 她能感受到的只有壓力 。
困境、掙扎
盡管目前的情況不樂觀 , 劉夢緣依舊相信 , 數據標注行業最終會大浪淘沙 , 而他們 , 是走到最后的那一批 。
從好的局面來看 , 下游市場陷入混戰的同時 , 上游的 AI 市場從未停止過發展 , AI正在成為人們進入這個社會的“入口” , 這讓劉夢緣和其他從業者們感到充滿希望 。
數據標注工作室賺錢嗎 數據標注行業的前景

文章插圖

但行業也顯露出嚴峻的一面 , 數據標注在迭代:大模型慢慢替代標注師 , 一些門檻更高、學科更細分的領域正露出頭角 。 比如 , 醫療健康領域需要對病理切片等進行標注 , 以腰椎間盤突出的 CT 片為例 , 標注員必須準確識別并標注出間盤的輪廓 。 不過 , 很多醫療專家并沒有時間和精力做數據標注 , 而這類工作又是普通的標注師無法勝任的 , 通常需要請醫生或醫學院的學生來做 , 結果就是成本居高不下 , 這些專業人員的成本是普通標注員的10倍 。

推薦閱讀