月薪兩萬,大廠瘋搶AI數據標註員


“人均月薪兩萬、本科以上學歷、直通百度字節。”有些許荒涼的年底招聘市場,在最近的短短一周之內,突然冒出一大批“AI數據標註員”的崗位,正在火熱招聘中。這些崗位不僅有百度、字節、京東、滴滴、美團等“夢中情廠”,工資月薪十分亮眼,都在1萬到2萬元之間,且發佈時間很短,都在1周到1個月之間。

除新以外,崗位招聘顯然非常急迫。據招聘軟件顯示,HR們都異常活躍,一天24小時幾乎全程在線,日均回復次數在十次以上,隔幾分鐘就回復一次。

“最近隻要一上線,有關AI數據標註員的招聘消息就瘋狂彈,重復地彈。”不少正在求職的人反映,“上次這麼瘋狂的打招呼,感覺還是主播招聘。”


▲圖源Boss直聘截圖

招聘的火熱,很難不讓人想到大廠的大模型之戰。

不過,據觀察,“AI數據標註員”招聘不是由這些大廠直接操辦,而是通過獵頭公司來負責招聘。崗位的名字也是五花八門,有“數據標註”、“AI話術編輯”、“數據標註分析師”、“標註員”、“AI訓練師”等等。

雖然叫法不同,但關於這些崗位的職能描述卻大差不差,據招聘軟件信息顯示,其中很大一部分崗位跟現下大熱的大模型有關,入職的數據標註員們的日常工作包含,大模型的編輯校對、大模型的數據標註管理、大模型的內容質量評估等。


▲圖源Boss直聘截圖

‘自象限’向多位招聘HR進行咨詢,“工作的主要內容是對文心一言大模型回答結果的分析和判斷,工作的地點在百度科技園。”有獵頭回復道。

高薪資待遇、掛鉤大模型、大廠哄搶……有求職者看到機會,“大模型的風,要帶動新一批大廠人紮根,普通人的機會來嗎?”

但事實上,時間緊、任務重的崗位招聘,要求卻並不算低,基本學歷要求本科起步,985、211優先本科和碩士優先,在具備語言學、中文信息處理、計算語言學、文學等相關專業背景的同時,還得對一些AI技術的原理有解。

花椒科技告訴我們,面試的基本流程是,“簡歷初篩-發筆試題-筆試題通過一輪面試-直接發offer-培訓”,在學歷方面,獵頭強調“必須得是一本才行,211/985優先”。

嚴格準入門檻,招聘軟件上神秘的“AI數據標註員”背後,藏著大廠的大模型棋局。


我,給大模型當“考官”

月薪兩萬

歷時一個多月的面試,中文系畢業的羅文(化名)最終敲定自己的offer——百度文心一言的AI數據標註員。連她自己都不敢相信,一個純技術小白現在的日常竟然是給大模型當“考官”。

“畢業三年,沒有任何AI經驗,轉行漲薪,幅度近50%,月薪在9k-15k左右”,羅文告訴我們。

坐在兩臺電腦前,羅文每天的主要工作有兩項:一是做題,直接給大模型進行“填鴨式”教育;二是給文心一言當“判官”,評判給出的答案對不對、好不好。

所謂“填鴨”就是強行把寫好的答案喂給大模型,這樣的好處就是從數據源上不會出錯,以此來提升大模型的訓練效果。羅文告訴‘自象限’,數學題、常識題、作文題她都做過,但這還遠遠不夠,“理論上,越專業越好,比如我擅長文學領域,那就專攻文學題,有的同事專業是醫學,那就做醫學問答題”,羅文道。

羅文的話已經在一些社交平臺得到驗證,有人曾發佈帖稱,“急需招募金融專業人員,有償給文心一言答題,一天30多道,每道題價格在1.5-2.4元。”


▲圖源社交媒體平臺小紅書截圖

另一項工作就是給大模型當“判卷老師”,就像學生考試一樣,每天大模型會生成各種問題的答案,羅文就需要承擔老師的角色,判斷其生成的答案與題目是否一致,答案是否正確。

若遇到諸如作文一類沒有標準化答案且開放性的問題時,則需要評判答案的好壞,比如,系統會隨機給一組數據,包含1個問題和3個回答。羅文需要先標註出這個問題屬於什麼類型,隨後給3個回答分別打分並排序。分數區間為0-5分,如果打分低於3分,還要標註出具體原因,例如“答非所問(0分)”、“嚴重跑題(1分)”、“存在邏輯問題,存在事實性錯誤,比例較小給2分”等。

這個工作雖然看上去並不難,但卻異常重要,甚至可以從外包直通大廠的機會。據上述獵頭告訴我們,“雖然合同跟我們獵頭公司簽,但是還是有六分之一的幾率轉正,進入百度集團”。這或許也是嚴格控制學歷的原因。


▲圖源Boss直聘截圖

為此,‘自象限’也解到,由於百度地圖的數據標註,有穩定的地圖業務需求及自動駕駛模型、算法模型的訓練需求,所以對數據標註的質量要求更高,的確搭建專門的數據標註團隊。

市場上對“羅文”的需求,不止大模型公司。據‘自象限’統計,目前,市面上的數據標註崗位大致分為兩種。

一種以NLP(自然語言)為主要方向,百度、字節、京東、美團等一批大模型科技公司一擁而上,給自傢大模型找人工數據訓練師。這其中又分為幾個細分的方向,譬如數據分析、大模型生成結果判定、輔助大模型邏輯推理等等。

另一個方向則是CV(圖像),存在已久,人們更加耳熟能詳的是“2D拉框”和“3D拉框”,主要是滿足滴滴、毫末、輕舟智航等這類車企,為其智能駕駛業務提供圖像數據質檢和標註幫助。


▲圖源Boss直聘截圖

‘自象限’觀察發現,十一月是NLP方向數據標註的轉折點,此前,百度、京東等大廠無論是校招還是社招,都僅開設很少或壓根沒有AI數據標註崗位,招聘軟件上也隻是零星地開放實習生的崗位,通常不設學歷上限,大專學歷封頂。

毫無征兆地突然冒出一批崗位需求,這背後或許與大模型廠商的研發受阻有關。多位行業人士曾向‘自象限’透露,截至目前,國內的大模型水平或許僅能達到GPT-3.5水平,發展的核心還是數據質量問題。

一邊是國外OpenAI連放猛招,直逼GPT-5,一邊是國內企業喊著“要落地”、“要用上大模型”,雙重壓力下,又用起“人海戰術”。

技術研發水平不夠,人工能力來補齊,國內大模型廠商開始瘋卷“AI數據標註員”,為大模型能力“飛升”再加一把燃料。


大廠卷精標,粗標“割韭菜”

事實上,數據標註並不是新鮮事兒,早已有之。以前的形式是粗標,主要表現為“拉框”,但現在粗標發展得亂套:一是此前大廠粗標多為眾包標註平臺,工單分散,人員不專業,導致標註質量不行;二是隨著大模型的精進,粗標變得越來越不夠用,精標的地位由此直線上升。

針對粗標和精標的差異,某大廠員工解釋道:“一般廠商的外包團隊,能做標註,但他們就是按照框定的規則標註,如果出現規則之外的數據,標註就會存在通過率不高的情況來回反復,但是由工程師團隊來做,特別是針對自動駕駛輔助駕駛等回傳的數據,他們知道背後的原理,可能不會按照常規的思路標註,會帶解決問題的思路來標註,可能需要跳出之前制定的標註規則,這樣標註數據的質量會更高。”

大模型爆火,也為粗標刮起一陣“新錢風”。

目前,粗標求職陣地已經從招聘軟件轉移到快手等短視頻平臺。以快手為例,粗標求職熱度與快遞員並列,大量數據標註公司入駐快手,覆蓋京津冀、長三角和珠三角地區。


▲圖源快手截圖

據‘自象限’解,快手的直播招聘業務“快聘”曾在發佈會中特別提到:“要解決數據標註職類線下招聘難,應聘者少的核心訴求問題 。”

落實到實處,快手從公司資質審核、流量扶持、公司推薦到數據標註職業推廣都給予支持,‘自象限’註意到在快手官方招聘直播間中,有時也在全天無間斷地滾動地播報有關數據標註求職信息。

這一定程度上也成為某些數據標註公司的“尚方寶劍”。在招聘時候,宣傳之詞毫無遮攔,“無需學歷,上手即會,小學生都能做”,“拉一個框,打一個標簽,就是半個毛”,“拉3000個150元,6000個300元,月入7000-8000灑灑水,隻要手速夠快”,極盡誇張之詞。

但事實究竟如何呢?一萬塊錢能拿得如此輕松嗎?

為探究真假,‘自象限’在快手報名聯系上一傢熱門數據標註公司。該公司聲稱與比亞迪、理想、小鵬、特斯拉等車企直接簽單獲得一手數據任務,且出示大量的證書、憑證強調其正規性。入職後的主要任務就是接任務包,在圖片上拉框、標註和打標簽。


▲圖源微信截圖

總結下來,有幾個基本點:打框按計件算錢,一個框價格在一毛到一毛五;薪資首月按周結,第二個月以後按月結算;新手小白需要先繳納2580元培訓費用,一年內工資累計達到1萬,才能退還;平均七天左右學習培訓時間就能上手做任務;分兼職和全職,兼職按框計算,全職線下坐班,另免費提供住宿;在其展示的員工工資截圖中,月工資在5000-6000元不等。

但在黑貓投訴平臺上,上述公司成為數據標註投訴的重災區。

一些投訴用戶的經歷與我們相吻合。綜合用戶的反饋,投訴主要集中在以下幾個問題:第一,不會拉框需要先繳納2580元費用,一年做拉框任務滿一萬元,但是出現拒不退款的問題;第二,培訓內容非常簡單,且耗時長,耽誤用戶上崗;第三,不給通過和達標,總是卡拉框的合格率,最終影響收入;第四,態度豪橫,無視用戶的訴求,不處理、不退款。


▲圖源黑貓投訴平臺截圖

以上的問題也隻是冰山一角,‘自象限’雖然沒有繳費報名成功,但在咨詢後的一段時間內,也頻繁地收到電話、微信的輪番轟炸,從早安到晚安,問候從未落下,還時不時地用其他員工的工資表進行挑逗、刺激。


▲圖源微信截圖

一次嚴肅的數據標註求職,儼然淪為一場“割韭菜”遊戲,老老實實拉框的員工顆粒無收,反而是收培訓費的數據標註公司賺得盆滿缽滿。

數據質量決定大模型走得速度,即使是OpenAI也不例外。外媒報道稱,OpenAI一方面找多傢知名的數據公司來數據標註,一方面也自己組建一個幾十名哲學博士團隊來做數據質檢。

大模型的根基在數據,數據質量直接決定大模型進化的速度,從數據標註的亂象中,我們或許能一窺為什麼中國大模型發展進度慢的原因,但既然大模型廠商們也意識到數據標註的源頭問題,離我們真正突破到GPT-4,或許也就不遠。

作者|蘇奕


相關推薦

2023-05-15

賣水人,就一定能賺錢嗎?低門檻、重復性勞動、3000元月薪、老板無奈接下不盈利的項目以保證工資正常發放……這不是某個夕陽行業的現狀,而是自動駕駛數據標註公司的真實寫照。多年來,這些公司在三四線城市生產一張

2024-08-02

還展示培訓“戰績”,輔導上百位0基礎同學進入AI行業,月薪15K左右甚至年薪上百萬。「定焦」發現,這些機構大多是近一年內創立或開啟AI相關課程,他們培訓的內容又細又雜,宣傳單上寫的是“AI訓練師”,但培訓內容拆分

2023-02-13

隊的高管立即提出擔憂並結束該項目。Sama曾向多傢矽谷大廠提供類似服務 自稱是“有道德的人工智能公司”訓練ChatGPT對OpenAI來說至關重要。ChatGPT的前身GPT-3已經展示非常強大的語句串聯的能力。然而,當時的GPT-3卻存在很多弊

2023-01-20

大廠月薪兩萬,“碩士白讀還倒貼”……清華應屆畢業生的一則吐槽貼火,他還稱大廠這種行為是“惡意開低薪”、“踐踏學歷”。一時引發熱議,相關微博話題熱度飆升,知乎問題也已有近250萬次瀏覽量。不少網友認為,這就

2022-06-29

,增加時薪制員工。被裁掉的員工主要負責自動駕駛系統數據標註工作,這些工作也可以外包給其他公司。據瞭解,聖馬特奧未被裁掉的員工早在幾周前就前往瞭加州新的辦公地點帕洛阿爾托。被裁員工雖然需要立刻離職,但也

2023-08-26

,位於海口市秀英區的百度智能雲(海口)人工智能基礎數據產業基地日前啟動運營,這是百度智能雲與海口市政府合作共建的國內首個大模型數據標註中心。官方表示,當前,大模型正處在產業落地前期,高質量的數據,是大

2024-04-08

2026年的數據荒越來越近,矽谷大廠們已經為AI訓練數據搶瘋!它們紛紛豪擲十數億美元,希望把犄角旮旯裡的照片、視頻、聊天記錄都給挖出來。不過,如果有一天AI忽然吐出我們的自拍照或者隱私聊天,該怎麼辦?誰能想到,

2023-04-24

戰,那就是去Scale AI擔任產品總監。過去在特斯拉Autopilot數據引擎團隊我收獲很多,現在我要將這個產品推廣到多個行業裡,即從計算機視覺到語言大模型,我真的很興奮!對於她的離開,底下網友紛紛留言,有人表示出遺憾和

2022-08-16

會有學習不到的地方。早幾年,特斯拉曾與第三方合作將數據工作外包,但發現標註數據的質量並不高,隨後便擴充自己的團隊。最初特斯拉的大多數的標註還是在2D圖像上進行。不久後,標註開始轉移到4D空間,即3D空間+時間

2023-04-23

在繼續招聘。截圖還顯示,數百名被稱為“高級人工智能數據訓練師”的Invisible Technologies公司派遣工與OpenAI合作,幫助後者訓練其GPT聊天機器人。一位派遣工表示,該公司的人工智能數據培訓師負責提高模型的編碼技能,增強

2023-02-16

究者下載一份2022年6月的考題,確保ChatGPT從未訓練過相關數據,也不知道考題答案,ChatGPT考試成績基本合格。該團隊認為,這些結果表明,大型語言模型可能有助於醫學教育,並可能有助於臨床決策。當地時間2月10日,微軟創

2024-07-04

術的日新月異,一系列新興職業如雨後春筍般湧現,其中數據標註師與提示詞工程師尤為引人註目。百度已助力全國二十餘座城市建立數據標註中心,不僅促進地方經濟發展,更為社會創造大量高技能就業崗位。對於提示詞工程

2024-05-01

遇信息的平臺上,大傢曬出的普通本科應屆生offer更多在月薪七八千左右的區間。小米汽車的兩萬底薪也隻屬於門店店長級別,需要有數年的汽車銷售經歷與管理經歷才能應聘。即便意識到這一點,依然有相當多的年輕人渴望進

2023-03-12

3月11日消息,一位女生月薪2萬辭職考研8次全部失敗引發網友熱議,網友在討論她的選擇到底值不值?”據悉,這位女生從2015年到2022年,連續八次報考北京電影學院的同一個老師的研究生,次次鎩羽而歸。在考研的八年裡,她