4月7日消息,上周推特兌現埃隆·馬斯克(ElonMusk)長期以來的承諾,在GitHub上公佈部分推薦算法底層代碼。然而,研究人員表示,其中的內容並不詳盡,推特省略“算法到底是如何工作的”等重要細節,使得我們想要弄清推特平臺內部運作機制仍然很困難。
以下是翻譯內容
當馬斯克第一次提出要接管推特時,就宣稱他接手後的第一件事就是“開源”推特算法。。上周,他終於履行自己的承諾,推特在GitHub上發佈平臺上有關“為你推薦”功能的部分底層代碼。
人們很快開始對這些代碼進行深挖,沒過多久就發現馬斯克的推文有特殊類別標記。推特工程師們急忙站出來解釋說,這是為便於“跟蹤統計”,其他分析也證實這一說法。盡管推特幾個小時後就從GitHub上刪除這段代碼,但人們仍然猜測推特工程師們特別優待馬斯克所發內容,可能采取人為措施來提升他的推文曝光量。
自此之後,推特沒有發佈更多代碼,也沒有說明其平臺算法的內部運作機制。那些希望通過推特公開代碼來探究平臺內部運作機制的人可能會感到失望。研究過這些算法的工程師們表示,這是因為推特發佈的代碼省略“算法”到底是如何工作的等關鍵細節。
據紐約大學研究社交媒體的副教授、前推特員工索爾·梅辛(Sol Messing)稱,推特所公開的內容對推特算法進行“大量編輯”,其中首要問題就是沒有涵蓋在推特推薦功能中能發揮作用的所有系統。
推特表示,它沒有公開用於處理廣告的代碼、信任和安全系統,以防止不良行為者利用這些代碼進行惡意操作。此外,推特還選擇不公佈用於訓練算法的底層模型,並在一篇博客文章中解釋稱,這是為“確保用戶的安全和隱私得到保護”。梅辛認為,這個決定甚至更為重要。“算法的最關鍵部分——驅動模型仍沒有開源,”他說,“因此,算法最為核心的部分仍然讓人費解。”
馬斯克最初開源推特算法的動機似乎源於他對推特利用算法壓制言論自由的擔憂。他在去年四月份的TED演講中說:“我認為推特應該開源算法,公開對推文內容的任何更改——無論是推薦還是不推薦——都應該明明白白地呈現出來。這樣,任何人都可以看到推特采取哪些措施,就不會有任何算法或人工的幕後操作。”這一演講是馬斯克確認收購推特後不久做的。
在推特發佈的代碼中,沒有提供足夠的信息來告訴人們這個平臺是否存在潛在的偏見,也沒有提供內容來說明是否存在馬斯克想要公開的那種“幕後操縱”手段。梅辛說:“這隻是透明度的做法。”“但是這些內容並沒有真正幫助人們深入解算法的運作,也沒有讓人真正深入解為什麼有些人的推文排名會下降,而其他人的排名會上升。”
此外,梅辛還指出,推特最近在調整其應用程序編程接口(API)方面的政策,這基本上切斷絕大多數研究人員訪問大量推特平臺數據的途徑。沒有合適的API訪問權限,研究人員根本無法自行研究推特算法的新細節。梅辛在自己的分析中寫道:“在推特公佈這些代碼的同時,這種做法使得研究人員更難深入分析代碼內容。”
去年,在馬斯克首次討論“開源”推特算法的計劃後不久,分佈式人工智能研究所(DAIR)研究總監亞歷克斯·漢納(Alex Hanna)也提到研究人員審查代碼的重要性。和梅辛一樣,她也認為僅在GitHub上發佈代碼並不足以提高推特運作方式的透明度。
漢納說:“如果你真的對公眾監督推特算法等事情感興趣,那就必須采取多種方法。”
不過,推特在GitHub上公開的部分代碼確實揭示推特算法的一些內容。梅辛透露,數據科學傢傑夫·艾倫(Jeff Allen)從中挖掘出一份文件,其中的內容揭示推特如何使用“公式”為不同類型的用戶參與賦予優先級。梅辛寫道:“如果我們從字面上理解,就會發現推特上的1個贊相當於半個推文轉發。”“一條回復相當於27次轉發,而1條回復再加上推文作者的回應就相當於75次轉發。”
雖然這在一定程度上揭示一些信息,但有關推特平臺的運作方式的描述並不完整。梅辛說:“沒有實際數據的話,這種分析沒有多少意義。”“如今馬斯克讓學者獲取數據的成本高得離譜。如果他們現在真的想研究這個問題,基本上每年需要花費50萬美元的巨資才能獲得大量有意義的數據。”