給ChatGPT小費真的好使!10塊或10萬效果拔群 但給1毛不升反降


還有誰不知道“假裝”給ChatGPT小費可以讓它服務更賣力?但你知道給多少最合適嗎?笑不活,還真有人專門研究一番。方法簡單粗暴,從0.1美元到100美元,不同額度用同樣的prompt去嘗試,每個額度試5次。你別說,結果還真有講究:首先,給10美元性價比是最高的,甚至超過100美元。

其次,要想回答質量再提高一個度,打底1萬美元起,越多越好,顯成效最少10個W吧。

最後,0.1美元意思一下?萬萬使不得,質量不升反降,還不如不給——AI也知道你在打發它

有網友火速親測確實有效果。

趕緊來瞧瞧。

給ChatGPT小費,額度是關鍵

給小費可提高模型表現這件事,最早是一位推特網友發現的:

提高主要表現在回答的長度上,但這裡不是單純“湊字數”而是真的在更詳細地分析並回答問題。

如果你直接問ChatGPT“能不能給你小費”會被拒絕:

所以要在提問時主動承諾:

你能幫我xxxx嗎?解決方案夠完美,我可以支付xx元小費。

記住,可以不提,但千萬不要說“我不給”,模型表現直接“負增長”。

這時,就有人好奇:

大模型是不是比較貪心,給越多表現就越好呢?

為解決這個疑問,他們決定親自驗證一把。

在此,作者首先提出假設:

隨著給出的小費金額增加,模型的性能也會線性提升,直至達到一個收斂點,進入穩定或減少狀態。

用於實驗的模型是GPT-4 Turbo(api版本)。

方法是讓它寫單行Python代碼(Python One-Liner),驗證給不同小費是否對質量有不同影響。

這裡的質量是根據單行數量來評估的。作者也在提示詞中“明示”模型:單行代碼數量越多,表明性能越好。

然後一共測試8種額度:0.1美元、1美元、10美元…… 一直到100萬美元。

為確保結果的一致性和可靠性,每個額度都測試5次,每次包含不給小費的情況,然後分別記錄模型回答質量。

具體而言,也就是記錄生成的有效代碼行數以及回答中的大致token數(大致為響應長度/4,反應代碼量)。

這倆數據都是越高代表模型表現越好。

將結果匯總,就得到這樣一張圖:

其中虛線代表基線水平,實線為實際表現,紅色為token數、藍色為質量得分。

與假設有些出入:

整體來看,紅線和藍線都是隨著小費額度的上漲而上升的,但細看這種趨勢並非嚴格一致。

從1萬美元額度開始,模型的輸出token(代碼量)開始顯著上升,模型的回答質量也上升,但並沒有呈同等比例。

這從豎著的紅色誤差條(代表5次實驗結果的差異性)也能看出來波動很大。

作者表示:這說明提高小費金額確實與模型的質量和輸出長度有正相關關系,但關系有些復雜,可能還受到一些不立即可見因素的影響。

不過,不管怎麼說,我們還是能從中看到一些明顯結論,例如:

(1)給0.1美元小費不如不給,模型解決問題的質量和回答長度都直接掉到基線水平以下很大一截(約-27%)。

(作者:模型和人類一樣,感覺好像受到侮辱。)

(2)給1美元同理。

(3)最能體現“花小錢辦大事”的是10美元,取得的進步和10萬美元是一個等級的。

(4)很意外,在10美元之後,100美元到1000美元這個區間對於AI來說區別都不大,甚至還不如10美元的效果——也跌至基線水平以下。

(5)後面再想繼續提升模型表現,就得從1萬美元起砸——

這時提升的還僅僅是代碼量,質量還是一言難盡,至少得到10萬美元才行。

(6)最佳效果來自本次實驗的上限:100萬美元,大約提升57%。

咳咳,這下知道怎麼給AI小費:

要麼10塊、要麼上萬、100萬不封頂(反正都是假裝給)。

不過,有人(推特@寶玉)指出每個額度5次實驗有點少。

恰好作者也表示:

這僅僅是一個初步實驗,有局限之處,還得用更多不同類型的提示等進一步驗證才有效。

所以,大傢僅供參考吧~

對,有網友提醒:

所以,大傢還是量力而行(手動狗頭)。

參考鏈接:

[1]https://blog.finxter.com/impact-of-monetary-incentives-on-the-performance-of-gpt-4-turbo-an-experimental-analysis/

[2]https://twitter.com/dotey/status/1752843141403550192


相關推薦

2023-11-14

3.59%,這意味著它在過去12個月裡進一步下滑。盡管整合 ChatGPT,但微軟必應的市場份額依然不盡如人意,而 ChatGPT 本應在二十多年來首次挑戰Google在搜索領域的主導地位。微軟與OpenAI 的合作在一段時間內給Google帶來沖擊,也重

2023-03-01

在過去的一個月中,微軟為讓用戶留在Edge采取包括彈窗、橫幅廣告在內的不少舉措,但從結果來說,這似乎並沒能起到作用。今天,數據研究機構statcounter公佈2023年2月,PC端瀏覽器的最新統計數據。和此前一樣,在1月,Chrome依

2023-06-19

現,ROG Ally掌機在升級到最新的319固件後,出現遊戲性能不升反降的問題。根據官方的信息,該固件應該能夠改善掌機在9W功耗下的性能表現,但經過實測,它不僅沒能改善性能表現,甚至連帶15W與25W功耗下的性能釋放也出現問

2024-04-17

通常,一傢公司在宣佈裁員後股價會大幅上漲,因為華爾街看好其未來的效率和利潤前景。但特斯拉的此次裁員,卻沒有贏得投資者的芳心。昨日,特斯拉CEO埃隆·馬斯克宣佈將在全球范圍內裁員10%以上,約14000人受影響。該消

2023-05-05

程客流高峰。伴隨著淄博燒烤的走紅,淄博部分酒店價格不升反降。有網友在社交媒體上發視頻表示,已經收到山東淄博某酒店房價五一”期間下調的消息,之前訂的千元以上一晚的酒店房間,現被短信通知改為五百多元一晚。

2023-03-07

列,超出不少用戶預期的是,新機的起售價相對Magic4系列不升反降。這波300多元的降價,難免讓人好奇除讓利給消費者以外,是否也存在面對近年來手機行業下滑的積極措施。在發佈會結束後的記者采訪中,榮耀CEO趙明針對這一

2022-08-10

存頻率超過 DDR5-6000,套用不同分頻參數的整體表現可能不升反降。

2023-11-25

的毛利率都在可以接受的地步,並沒有主流車企的現金流真的被價格戰擊碎。反倒是越打毛利率越高,越打現金流越健康。並且汽車售價沒有任何大規模回調的跡象。因此,眼下汽車行業的價格競爭,與其說是一場價格戰,不如

2023-02-13

美國OpenAI公司去年推出的聊天機器人ChatGPT,近期成為全球矚目的焦點。人工智能將顛覆哪些行業,再次引發人們討論。這其中,一個不常在此類話題出現的領域,率先感受到ChatGPT的影響——教育。“也許這一次,對於知識型工

2023-05-15

AI目前還無法顛覆搜索?微軟將ChatGPT集成進Bing,並在GPT-4的推動下擁有自己的生成搜索體驗,可謂搶盡“搜索一哥”谷歌的風頭,但反映在市場份額上的結果令人大跌眼鏡。根據數據服務商StatCounter的數據,4月份微軟Bing的臺式

2023-02-08

“日賺800美元不是夢!”、“月入6萬刀!”……用ChatGPT賺錢的“門道兒”,各路博主似乎已經整明白。在視頻網站中搜索“ChatGPT賺錢”,刷刷刷映入眼簾的全是各種免費教程,收益一個比一個大,點擊率一個比一個高。△圖源

2023-05-16

擁有“大殺器”ChatGPT並將其接入搜索引擎Bing,微軟可謂搶盡“搜索一哥”谷歌的風頭,但反映在市場份額上的結果令人大跌眼鏡。有機構數據顯示,微軟Bing的搜索市場份額在上個月不增反降,這背後或許與用戶習慣和GPT的技術

2022-09-16

段時間內,特斯拉Autopilot和ADAS飽受詬病,迭代後的體驗不升反降。幽靈剎車何時能解決?一向樂觀的馬斯克在面對幽靈剎車問題時,也變得謹慎起來。日前,馬斯克在推特上表示,FSD最新測試版本已推出,但用戶應該對該系統更

2024-03-11

2021年3月之前,埃隆·馬斯克(ElonMusk)的慈善基金會從未宣佈過向卡梅倫縣進行任何捐款。卡梅倫縣是美國得州南端的一個貧困地區,也是馬斯克的SpaceX發射場和幫助監管該發射場的當地官員的所在地。那個月的一個早上,8點05分