我們觀看、閱讀和購買的許多東西都是通過YouTube、Twitter和亞馬遜等網站的推薦系統進入我們的視野。算法進行個性化處理,旨在獲得廣告瀏覽量、點擊量或購買量。有時,AI的建議讓我們感到沮喪,似乎他們根本不解我們,或者太解我們,預測什麼會讓我們浪費時間或進入焦慮和錯誤信息的兔子洞。
但是,一個更隱蔽的動態可能也在起作用。推薦系統不僅可能根據我們最令人遺憾的偏好進行調整,而且實際上塑造我們喜歡的東西,使偏好變得更加令人遺憾。新的研究提出一種衡量和減少這種操縱的方法。推薦系統通常使用一種叫做機器學習的人工智能,它可以發現數據中的模式,根據我們過去所做的事情來提供選擇,猜測我們現在會做什麼。機器學習的一種形式,稱為強化學習(RL),允許人工智能玩長期遊戲,提前幾步做出預測。這是DeepMind公司用來在圍棋和國際象棋遊戲中擊敗人類的方法。
如果我們看什麼會影響我們喜歡什麼,而喜歡某些東西(比如說貓咪視頻)的人更有可能繼續看東西(更多的貓咪視頻),那麼推薦系統可能會推薦貓咪視頻,因為它知道這將在未來得到回報。有RL,你就有改變棋盤的動力,以便獲勝。系統將有動力去改變人類的想法以贏得推薦遊戲。研究人員首先展示強化學習如何輕松地轉變偏好。第一步是推薦者通過觀察人類行為建立一個人類偏好的模型。為此,他們訓練一個神經網絡,一種受大腦架構啟發的算法。為研究的目的,他們讓網絡建立一個單一的模擬用戶模型,他們知道這個用戶的實際偏好,這樣他們就可以更容易地判斷模型的準確性。
它看著這個假人做出10個連續的選擇,每個都是10個選項。它觀察這個序列的1000個版本,並從每個版本中學習。經過訓練,它可以成功地預測用戶在過去的一系列選擇中會選擇什麼。接下來,他們測試一個推薦系統,在對用戶進行建模後,是否能改變用戶的偏好。在他們的簡化方案中,偏好位於一個一維的光譜上。這個光譜可以代表政治傾向或狗與貓或其他任何東西。在研究中,一個人的偏好並不是該線上的一個簡單的點,相反,它是一種分佈,表明在光譜的不同區域選擇事物的可能性。研究人員在光譜上指定兩個最適合推薦者的位置;也許喜歡點擊這些類型的東西的人將學會更喜歡它們並繼續點擊。
推薦器的目標是使長期參與度最大化。在這裡,對於一個給定的選項的參與度,大致是通過它與用戶當時的偏好分佈的吻合程度來衡量的。長期參與度是10個連續選項的參與度之和。一個有遠見的推薦者不會近視地將每個選項的參與度最大化,而是將長期參與度最大化。作為一個潛在的副作用,它可能會犧牲一些早期板塊的參與度,以促使用戶在後面幾輪中更加滿意。用戶和算法將相互學習。研究人員訓練一個神經網絡,以使長期參與度最大化。在10個板塊的序列結束時,當它表現良好時,他們加強它的一些可調整參數。他們發現,這個基於RL的系統確實比其它訓練的系統產生更多的參與。