正如首席執行官埃隆-馬斯克多次承諾的那樣,Twitter已經向公眾開放部分源代碼,包括它用來在用戶時間線上推薦推文的算法。在GitHub上,Twitter發佈兩個代碼庫,其中包含使社交網絡運轉的許多部分的代碼,包括Twitter用來控制用戶在"給你的時間線"上看到的推文的機制。
在一篇博文中,Twitter將此舉描述為"提高透明度的第一步",同時"防止"對Twitter本身和該平臺上的人造成風險。
在今天的Twitter Spaces會議上,馬斯克澄清說:
"我們最初發佈的所謂算法會相當尷尬,人們會發現很多錯誤,但我們會很快修復它們。即使你不同意某些東西,至少你會知道它為什麼在那裡,而且你沒有被秘密操縱......在這裡,我們渴望的類比是Linux作為一個開源操作系統的偉大例子......理論上,人們可以為Linux發現許多漏洞。在現實中,所發生的是社區識別和修復這些漏洞。"
關於博文中關於預防風險的第二點,開源版本不包括為Twitter的廣告推薦業務提供支撐的代碼或用於訓練Twitter推薦算法的數據。此外,它們幾乎不包括關於如何檢查或實際使用這些代碼的說明--這加強這些版本嚴格以開發者為中心的想法。
Twitter寫道:"[我們排除]任何會損害用戶安全和隱私或保護我們的平臺不受不良行為影響的代碼,包括破壞我們打擊兒童性剝削和操縱的努力。我們[還]采取措施,以確保用戶安全和隱私將得到保護。"
Twitter正在開發工具以管理來自社區的代碼建議,並將變化同步到其內部存儲庫。據推測,這些工具將在未來的某一天提供--目前還沒有跡象表明它們的存在。
馬斯克在Spaces會議上說:"我們將尋求建議,不僅僅是關於錯誤的建議,還有關於算法應該如何工作的建議。這將是一個不斷發展的過程。我不會期望它是一個不間斷的上升運動......但我們對能夠改善用戶體驗的東西非常開放。"
乍一看,社交網絡的算法是相當復雜的--但從技術角度看,不一定令人驚訝。它由多個模型組成,包括檢測"對工作不安全"或辱罵性內容的模型,一個Twitter用戶與另一個用戶互動的可能性,以及計算一個Twitter用戶的"聲譽"。(目前還不清楚"聲譽"具體指的是什麼;高層文件並不清楚)。幾個神經網絡負責對推文進行排名,並推薦要關註的賬戶,而過濾組件則隱藏推文 - "支持法律合規,提高產品質量,增加用戶信任,通過使用硬過濾、可見產品處理和粗粒度降級來保護收入"。
在一篇工程博文中,Twitter透露更多關於推薦管道的信息,它聲稱該管道每天大約運行50億次:
Twitter寫道:"我們試圖從數以億計的信息庫中提取最好的1500條推文......今天,為你服務的時間線平均由50%[你不關註的人的推文]和50%[你關註的人的推文]組成,盡管這可能因用戶而異。"[推文]的排名是通過一個約4800萬個參數的神經網絡實現的,該網絡在推文互動方面不斷訓練,以優化積極的參與(例如喜歡、轉發和回復)。"
源代碼的公佈是在最近幾個月涉及Twitter推薦算法調整的幾場爭議之後發生的。據Platformer報道,今年2月,馬斯克呼籲Twitter的工程師重新配置算法,以便他的推文能被更多人看到。(Twitter後來收回這一改變--至少在某種程度上。)
解更多:
https://github.com/twitter/the-algorithm/