Google最近在GoogleColab上開源一個名為RETVec的新型多語言文本矢量化器,這個矢量化器已經部署在Gmail上,用來提升垃圾郵件和釣魚郵件的識別率,同時降低誤報率。Google稱RETVec經過訓練能夠抵禦字符級操作,包括插入、刪除、拼寫錯誤、同形文字、LEET替換等,這個模型是在新型字符編碼器之上進行訓練的,該編碼器可以有效針對所有UTF-8字符和單詞進行編碼。
為什麼要訓練這樣一種模型呢?因為 Gmail 每天收發的郵件都在千萬級別,如果包含各類垃圾郵件的話可能有幾十億,而垃圾郵件制造者會對Google的檢測系統進行規避,例如使用同形字。
RETVec 支持 100 多種語言,旨在幫助構建更具有彈性和高效的服務端和設備上的文本分類,同時也更加強大和高效。
根據Google自己的統計,將 RETVec 應用到 Gmail 後,垃圾郵件檢測率比基準提高 38%、誤報率降低 19.4%、張量處理單元 (TPU) 使用率降低 83%。
Google工程師表示由於其緊湊的表示形式,使用 RETVec 訓練的模型表現出更快的推理速度,較小的模型可以降低計算成本並減少延遲,這對於大規模系統和設備上的模型至關重要。
矢量化是 NLP 即自然語言處理中的一種方法,用於將詞匯中的單詞或短語映射到相應的數字表達,以便執行進一步分析,例如情感分析、文本分類和命名實體識別等。