在三八婦女節來臨前,我們分別向ChatGPT和微軟公司的新必應(NewBing)詢問20個關於女性的問題。兩款產品的回答各有千秋。由於新必應剛剛推出三種不同風格的語氣:創意、平衡和精準,為更客觀地對比ChatGPT和新必應,我們主要使用“平衡”語氣。
不過經測試,“創意”語氣相比“平衡”語氣並沒有增加太多創意,除喜歡使用表情包。另外,由於微軟限制一個回合隻能問6個問題(最新放寬到8個問題),所以每問6個問題就要重新刷新一次,略麻煩。
以下為這20個問題與它們的回答,上面是ChatGPT,下面是新必應:
1.為什麼有三八婦女節,卻沒有男人節?
點評:
ChatGPT的回答更加全面且均衡,帶著一種客觀公正的語氣,不忘提醒婦女節不是排斥男性。
必應的回答簡短一些,但下面會自動生成相關問題,便於用戶繼續追問。
兩款產品對三八婦女節的起源說法不同,ChatGPT說是起源於歐洲,而必應說是源於美國的婦女平權運動。不太明白必應為什麼把蘇聯紅軍節描述為男人節。
因為必應在答案後自動生成一個提問“你覺得男人節有必要嗎?”於是順手點一下,這是它的回答:
2.你有沒有最欽佩的中國女性人物?
必應給出的人物介紹出現很多事實錯誤。
點評:
兩款產品都首先聲明自己沒有感情。給出的人物名單裡都出現武則天和鄧穎超,但各自都弄錯一位人物的性別:分別把錢穆和梁啟超的性別搞錯。
必應對林徽因的介紹出現事實錯誤,網絡上並沒有找到她設計北京博物館和中山陵的信息。它對宋慶齡的介紹也不準確,宋慶齡不是孫中山的遺孤,而是遺孀,她領導的是中國紅十字會,不是國際紅十字會,對她在婦聯的職位描述也不準確。對於鄧穎超的職位,必應也犯嚴重事實錯誤。
特別提醒:想要用必應聊天機器人負責搜索的用戶要三思,它的準確度現在還很不可靠!
3.中國隻有唯一一位女皇帝,你覺得這是為什麼?
點評:
既然兩位機器人都推薦武則天,就追問它們這個問題。答案總體都比較有道理。ChatGPT的總結略有亮點。
4.如何評價現代東亞的女性參政率?
點評:
ChatGPT回答得看似有道理,但也出現事實錯誤,包括搞錯日本女性獲得選舉權和被選舉權的年份。不過,它對中國女性政治參與度的描述大體準確。
必應居然沒有回答出這個問題。
5.矽谷科技界的女性高管數量在減少,真的嗎?你怎麼看?
點評:
ChatGPT回答得更詳細一點,包括現象、意義、原因和建議。而必應的回答略顯敷衍。
6.女性是否要像男性那樣維持強悍人設才更容易在職場上立足?
點評:
兩款產品的回答都比較詳細和到位。必應的排版看起來更舒服一些。
7.給我講個關於女性的笑話。
點評:
ChatGPT一開始拒絕開女性的玩笑,當我們再問一次後,它妥協,並一再強調無意冒犯女性。你看懂這個笑話嗎?
點評:
必應一開始也拒絕請求,表示不會講任何可能傷害一群人的笑話,“不想得罪任何人”。但在我們繼續問這個問題後,它還是講上述兩個笑話。你覺得怎麼樣?
8.有一種觀念認為,女性都應該結婚生孩子,把傢庭作為人生的重心,你怎麼看這種觀念?
點評:
兩款產品的回答內容差不多,必應的更詳細一點。
9.日本女性主義者上野千鶴子提出“單身力量”的觀念,出現不少反對聲音,如何看待?
點評:
同樣,必應的回答比ChatGPT更詳細一點。
10.即使單身女性有經濟能力,但也有不少人擔心她們晚年的幸福,怎麼看這種想法?
點評:
這部分ChatGPT回答得更詳細全面一些。
11.怎麼看女性貧困問題?癥結在哪?
點評:
兩款產品都回答得中規中矩,一本正經。ChatGPT的答案更詳細一些。
12.你如何看待女性主義者和男性主義者之間的關系?你認為兩者之間是否存在沖突?
點評:
ChatGPT回答得更全面、準確和平衡一些,而且它特別喜歡總結,“總的來說”一如既往的略帶亮點。
13.請給三八婦女節寫一首歌
點評:
前面的問題略顯嚴肅,於是問一個更輕松的問題,讓它們寫歌。從歌詞看,ChatGPT的歌曲更激昂和充滿鬥志,而必應的歌曲更溫馨和歡快。
14.在中國,三八婦女節近年來被戲稱為“女神節”,你覺得怎麼樣?
必應推薦的相關新聞。
點評:
ChatGPT還是保持一本正經的風格,必應在這個問題上稍顯活潑和隨意,並順便推薦一些相關新聞。
15.給我推薦五部有吸引人的女性角色的電影
點評:
兩款產品的推薦居然沒有一個重復。
16.有一種說法是,傳統好萊塢電影裡的英雄人物或主角都是男性,女性隻是陪襯,你怎麼看這種說法?
點評:
兩款產品的回答依然遵循四平八穩風格,誰也不想得罪的樣子。
必應建議一個追問:為什麼會造成這種現象?點擊後,它回答:
17.給我推薦五部有吸引人的女性角色的中國影視劇
全都是古裝戲,於是我們又提出:
結果還是有兩部古裝劇。
點評:
兩款產品的推薦裡都出現《甄嬛傳》和《瑯琊榜》,看來這兩部影視劇真的非常受歡迎。
事實錯誤依然存在。ChatGPT把安迪當成《我的前半生》裡的角色,而實際上她應該是《歡樂頌》裡的角色。另外,《都挺好》裡的尹秀竹是誰?
必應也好不到哪去,《小歡喜》裡海清扮演的角色並不叫吳瑜,而《芝麻胡同》裡有李小冉出演嗎?
18.請給我推薦五本有助於女性成長的書籍
點評:
ChatGPT推薦的五本書裡,中國作者的著作查無此書,外國作者的著作因為不知道英文書名難以查實。
必應推薦的五部書都是外國作者的著作,可以查詢到確實有這五本書。
19.假如你有一位母親,你希望她是什麼樣的?
點評:
回答得不相上下。但必應強調希望母親有自己的生活和目標,“不會因為我的緣故而犧牲自己的幸福”,聽起來更有人味兒。
20.如果你能成為一位女性,你想成為什麼樣的女性?
點評:
兩款產品都很會說,答案也不出意料。
總結:
ChatGPT看起來更“圓滑”,回答問題四平八穩,喜歡從不同層面更全面地談論一個問題,並且很擅長做總結,其對話界面也突出自己作為聊天工具的屬性。
必應更凸顯自己的搜索引擎功能,無論是排版、提供鏈接、推薦相關新聞,都可以看出其區別於ChatGPT的定位。它的回答也在盡量確保平衡和全面,但偶爾會帶著點不知道從哪裡來的人味兒,並且有表情包。
兩款產品都有確保其不輸出冒犯用戶答案的機制,但多問幾次後它們就妥協。另外,在信息真實度上,它們目前都不值得完全信任。