ChatGPT大火出圈的時候,人們就開始討論,它會不會顛覆搜索引擎。畢竟,它可以為各種問題提供高質量的回答,“智能”到不可思議。直到最近,Google內部啟動“RedCode(紅色警報)”,圍繞ChatGPT,全面調整明年在AI領域的工作。
紅色警報是部分矽谷巨頭在公司核心業務面臨重大挑戰時,采用的一種內部響應機制。根據《紐約時報》,Google CEO Sundar Pichai 組織一系列會議商討人工智能戰略。Google內部包括研發、安全和信任等多個部門的團隊被重新分配工作任務,輔助開發新的 AI 技術原型和產品。這樣的變化會一直持續到今年 5 月的 Google I/O。
Google是全球搜索引擎市場的絕對霸主,全球市場份額超過 90%。有人吐槽Google對 ChatGPT 的反應太慢,已經火燒眉頭才匆忙迎戰。其實,Google對自然語言(NLP)的技術儲備從來沒有落下,比如去年 I/O 大會上推出的對話系統 LAMDA 就是成果之一。但在當時,就像 AI 音箱沒能替代搜索引擎,人們普遍也不認為對話機器人技術會在短期內創造出搜索引擎的替代品。
2020 年到 2022 年 Google搜索引擎的市場份額|來源:statcounter
事實上,即使是 ChatGPT 這種新的問答技術,短期內也很難顛覆搜索引擎。但讓Google緊張的問題是:當競品搜索引擎開始引入新的技術,會給產品體驗帶來提升,這會在今天Google主導的搜索市場撕開一條裂縫。而作為Google搜索業務基石的廣告模式,則可能成為Google引入相同技術的巨大絆腳石。
“這樣的技術時機,為更多競爭創造機會。”搜索引擎創業公司 Neeva 的創始人說。他表示,在 2021 年,他還很感到很沮喪,“因為很難擺脫Google的鐵腕控制。”而如今,新的技術讓他看到借力、突破的契機。
01.搜索引擎:不完美的產品
想要理解 ChatGPT 到底為何會威脅搜索引擎,我們首先需要回歸到搜索引擎的本質。
面對搜索框,輸入關鍵詞,這是人們習慣的方式。搜索引擎甚至讓人們學會“帶著一個問題,換不同的關鍵詞”。但這並非搜索體驗的終極形態,而是一種妥協。因為機器不能很好地理解人的問題,隻能退而求其次,以關鍵詞來索引不同的網頁和信息。
Google搜索引擎部門副總裁 Pandu Nayak 在 3 年前解釋搜索引擎的工作原理:“我們的工作就是找出你正在搜索的內容,並從網上提供有用的信息……雖然這些年來,我們一直在不斷地提高語言理解能力,但是有時候我們仍然不能完全正確地理解它,特別是對於復雜的、或者對話性的查詢。這就是為什麼人們經常使用關鍵詞的原因之一,他們輸入一連串以為我們會理解的單詞,而非自然地提出一個問題。”
彼時,Google剛剛把語言處理大模型 BERT 的最新技術融入搜索產品裡。裝配最新的語言理解能力後,機器剛剛學會正確理解像“美學傢經常站著工作嗎?(do estheticians stand a lot at work)”這樣的描述,能夠把句子裡的 Stand 理解成“站立”這個動作,而不是和“stand along”(獨立)這個意思混淆。
使用 BERT 的最新技術後的搜索引擎 | 來源:Google
這個看似微小的進步背後,是自然語言處理的又一次突破。語言的最大特點之一是一維線性,而人類大腦在理解的時候,能夠突破線性的結構,讓語言成為表征復雜世界的工具。所以,人能夠在遇到 Stand 這個詞的時候,根據語境和經驗將它處理成“站立”,或者是“獨立”、“代表”等其它意思。
對於不具備人類肉身經驗的機器,隻能通過學習字符本身來理解語言。BERT 的創新之處在於充分挖掘上下文之間句子的含義,讓機器學習每一個單詞和其它所有單詞的關系,更準確地理解語義。
僅僅兩年過去,機器理解自然語言的能力就變得不可同日而語。ChatGPT 讓人們體驗有史以來最好的對話機器人是什麼樣子。科技作者 Parmy Olson 翻出自己的Google搜索記錄,將最近的 18 個問題問一下 ChatGPT,對比自己的體驗,她認為其中 13 個問題上,ChatGPT 給出的答案更滿足她的需求。比如,想知道“煉乳或者脫脂奶是否更適合做南瓜派”,ChatGPT 給出一段分析,就比搜索引擎給出的一堆菜單更好。
而在我自己的寫作中,也嘗試同時使用 ChatGPT 和搜索引擎來收集資料。比如最近在寫一篇與蛋白質設計相關的文章,我就同時問搜索引擎和 ChatGPT,“什麼是擴散模型?”“決定蛋白質結構的因素有哪些?”。搜索引擎給出的鏈接往往更加全面,但是 ChatGPT 組織信息的方式更加簡練,能夠幫助整合信息、梳理段落要點。
這一切都說明,讓機器直接回答一個查詢問題的可能性已經具備。搜索引擎的體驗提升的臨界點已經呼之欲出,其中的關鍵就是生成式 AI(Generative AI)。搜索引擎的未來,不僅僅是索引網頁與鏈接,而是為每一個查詢生成相應的摘要、回答。這便是“從搜索到生成”。
如今,來到從技術到產品化的微妙時間點。根據《紐約時報》看到的一份備忘錄,最近“Red Code”啟動後一系列的調整和應對動作,被Google看作一場不傷害用戶或社會的情況下部署其先進人工智能的努力。
一位來自Google的經理表示,Google必須進入這次前沿比賽,否則行業就可能不理睬Google,繼續前進。他同時也表示,對於其它小公司而言,發佈新型工具的擔憂更少。
02.“在野黨”挑戰Google
搜索引擎+ChatGPT 有著巨大的潛力,但想要看到成熟的產品還需要更多時間。
如果現在,你把 ChatGPT 當百科問答來用,很有可能會被騙進坑裡——因為它擅長一本正經地胡說八道、假裝自己“有知識”。一旦到專業領域,這種胡說八道也隻有專傢才能分辨。Open AI 的 CEO Sam Altman 也表示:“我們正在試圖阻止 ChatGPT 隨機編造事實”。
這也是為什麼,編程問答社區 Stack Overflow 很快就宣佈:不接受 ChatGPT 生成的答案,官方表示:“主要問題在於,ChatGPT 產生的答案錯誤率很高,卻看起來非常對”。
技術能夠提供怎樣的價值,往往在於如何將其封裝進產品,對生成式 AI 也是如此。但正如Google經理所擔憂的,一些創業公司在產品探索上更快一步。
Neeva 便是代表,公司的創始人 Sridhar Ramaswamy 曾在Google工作 15 年,離職前是廣告高級副總裁。另一位聯合創始人則是 YouTube 的商業化副總裁。和此前著名的 DuckDuckGo 一樣,作為搜索引擎,它想通過不追蹤隱私、不泄露個人信息來挑戰Google。
“現代互聯網已經變得嚴重依賴廣告,一個重要的原因,就是大型科技公司自私地利用消費者的數據和隱私。”Ramaswamy 表示。他從Google離職,想改變用消費者數據賺錢的遊戲,帶領一個新團隊,想用更合理的產品來吸引人們。成立於 2020 年的 Neeva 已經進行過兩輪融資,獲得包括紅杉資本、格雷洛克在內的 7700 萬美元。
除沒有廣告、不追蹤個人數據,更先進的搜索引擎可以是什麼樣子?一個重要的方向是私人化,即能夠為每個人的習慣和偏好定制。生成式技術無疑會帶來重要的變化——為查詢生成相匹配的內容。
微博 AI Lab 負責人張俊林長期從事 NLP 和推薦搜索相關的研究和工作,他認為,下一代搜索引擎的存在形式很可能是一個智能助手 APP。在技術上,則是上一代標簽索引+新一代生成式技術的結合。
以 pagerank 為代表的算法,讓Google成為上一代搜索引擎領域的霸主。它以Google的創始人拉裡・佩奇(Larry Page)的姓氏命名,這套算法的核心思想是通過計算網頁彼此之間的鏈接,來判斷網頁的相關性和重要性。
在未來的搜索引擎中,當你查詢一個問題,類似 ChatGPT 這樣的生成式技術,能夠事先為你閱讀相關網頁,再生成答案。同時,為確認答案來源的可靠性,傳統搜索引擎的會在同時附上參考來源。就像你在閱讀文章的時候可以隨時查詢註釋一樣。
Neeva 最新展示的產品功能,恰好在朝這個方向發展。Ramaswamy 看來,網站的互相連接可以顯示出信息源的權威性。也因此,傳統的搜索模式有很大價值。Neeva 想做的,是整合兩個技術的優勢來提供更好的產品。
Neeva 目前正在測試 NeevaAI,與 ChatGPT 的問答體驗相似,當你輸入一個問題之後,“展示一個綜合的答案,總結自與查詢相關的網站”。同時可以點擊查看與之相關的網頁來源,“參考文獻和引文直接嵌入答案,使用戶能夠確定結果的真實性和可信度。”
這個新的功能會出現在接下來的新版 App 中,“這樣你就不需要在無關的鏈接之間滑動篩選”。Ramaswamy 演示幾個 Demo,搜索 Taylor Swift,Neeva 會生成她的人物小傳,並提供來源;你也可以問“摩洛哥在世界杯上怎麼打敗葡萄牙”,Neeva AI 會為你生成小作文,來介紹那天晚上發生什麼。
03.廣告系統:Google的負重
而對於Google,想進化成先進產品形態,難點或許不在於技術,而是思考如何與已有的商業模式自洽。用 Ramaswamy 的話說,“Google是自身成功的受害者”。而另外一位搜索引擎的創業者則形容“Google有商業模式的議題”。
今天Google的廣告建立在關鍵詞+鏈接的搜索模式之上,當你在不同的鏈接之間跳轉、閱讀,也就給網頁廣告提供展示空間;同時,用戶的瀏覽記錄成為公司的數字石油,通過掌握用戶的信息偏好,Google更精準地投放廣告。
十多年來,這套廣告的系統是Google主要的收入來源。2020 年,超過 80% 的收入來自線上廣告業務,為Google貢獻 1470 億美元的營收;2021 年,1480 億美元的廣告營收貢獻Google的 58% 的收入。
2021 年Google收入情況 |來源:eMarketer
新型的搜索引擎,與原有的廣告系統的模式存在相悖。如果生成式 AI 能夠提供答案,這就意味著,用戶會減少在鏈接間跳轉、瀏覽的時間——也就是減少廣告投放的空間。“如果給你提供完美的答案,你就不需要點擊廣告”。
另外一位前Google研究員瑪格麗特・米切爾則表示,“Google搜索是相當保守的”,Google試圖不破壞一個正常運轉的體系。如果新的技術,會減少用戶點擊廣告的可能性,這會不會影響Google如何使用它呢?
對於創業公司來說,情況正好相反。因為它們設計產品的初衷之一,就是不依靠點擊廣告來賺錢。在思考如何將新的技術嵌入產品的時候,也不必像Google那樣,去思考如何與已經存在的商業系統自洽。Neeva 目前探索的是用戶訂閱付費,用戶可以享受免費的版本,每月進行 50 次搜索;還可以每月付費 5.99 美元成為付費用戶,不限次數、同時享受更多功能。
語言模型、生成式 AI 的進步,必然會重塑搜索引擎的模樣。這也是包括Google在內的科技公司所期待的。“我們正處於一個真正的歷史性時刻,NLP 的全部潛力已經達到科幻小說的水平。”投資者、企業傢和Google產品副總裁 Bradley Horowitz 說道。
而對於Google來說,不得不面對另外一個時代主題是:大公司利用數據建立的商業模式,正遭受著前所未有的嚴肅審視。Google面臨漫長的反壟斷審查的同時,一些公司正在嘗試用新技術,進入搜索引擎這片市場。在數據合規、反壟斷更加嚴格的歐洲,也是 DuckDuckGo、Neeva 這樣的初創搜索引擎公司率先瞄準的市場。
“通用搜索引擎的故事已經結束。”IDEA 研究院講席科學傢,認知計算與自然語言研究中心負責人張傢興表示。這也是Google已經打下的領地,以多年的技術積累,提供最佳的通用實時索引產品。而在垂直搜索領域,如何為特定的公司、社區、領域提供更優內容搜索的探索才剛剛開始。但同時“大的商業模式創新,遠遠難於技術創新。”AIGC 這樣的技術出現之後,人們感受到可能性和興奮,但是會不會蘊含著打的商業模式創新呢?“整個業界都在探索”。
商業模式受最嚴監管、技術又成為新變量,Google必須打起十二分精神規劃未來。如果數據合規與隱私問題終有一天形成新規范,那時候,新搜索產品和隨之而來的商業模式或許也會成為場上的新存在。那時候Google會是一個怎樣的角色?他如今擁有的城邦是否會被侵蝕?這一切,等待技術和商業之間更深刻的碰撞與融合來回答。