如今,一些看起來非常像人類的句子實際上是由人工智能系統生成的,這些系統已經在大量的人類文本中進行訓練。人們習慣於假定流暢的語言來自於有思想、有感覺的人類,以至於相反的證據可能難以理解,並且認為如果一個人工智能模型能夠流暢地表達自己,就意味著它也像人類一樣思考和感受。
因此,Google的一名前工程師最近聲稱,Google的人工智能系統LAMDA有自我意識,因為它可以雄辯地生成關於其所謂感受的文本,這也許並不奇怪。這一事件和隨後的媒體報道導致一些文章和帖子,懷疑關於人類語言的計算模型是有生命的說法。
由Google的LaMDA等模型生成的文本可能很難與人類寫的文本區分開來。這一令人印象深刻的成就是一項長達數十年的計劃的結果,該計劃旨在建立能夠生成符合語法、有意義的語言的模型。今天的模型,即接近人類語言的數據和規則集,在幾個重要方面與這些早期的嘗試不同。首先,它們基本上是在整個互聯網上訓練的。第二,它們可以學習相距甚遠的詞語之間的關系,而不僅僅是相鄰的詞語。第三,它們通過大量的內部進行調整,甚至連設計它們的工程師都很難理解為什麼它們會產生一個詞的序列而不是另一個。
大型人工智能語言模型可以進行流暢的對話。然而,它們沒有要傳達的整體信息,所以它們的短語往往遵循常見的文學套路,這些套路是從被訓練的文本中提取的。人腦有推斷詞語背後意圖的硬性規定。每次你參與談話時,你的大腦都會自動構建一個談話夥伴的心理模型。然後,你利用他們所說的話,用這個人的目標、感覺和信念來填補這個模型。從話語到心理模型的跳躍過程是無縫的,每當你收到一個完整的句子時就會被觸發。這個認知過程在日常生活中為你節省大量的時間和精力,大大促進你的社會互動。然而,在人工智能系統的情況下,它卻失靈,因為它憑空建立一個心理模型。
一個可悲的諷刺是,讓人們把人性賦予大型人工智能語言模型的認知偏見也會導致它們以不人道的方式對待真正的人類。社會文化語言學研究表明,假設流暢的表達和流暢的思維之間的聯系過於緊密,會導致對不同的人產生偏見。例如,有外國口音的人往往被認為是不太聰明,不太可能得到他們所勝任的工作。對那些不被認為是有聲望的方言,如美國的南方英語,對使用手語的聾啞人,以及對有口吃等語言障礙的人,也存在類似的偏見。這些偏見是非常有害的,往往會導致種族主義和性別歧視的假設,並被一再證明是毫無根據的。