ChatGPT修bug橫掃全場準確率達78%

2023-02-06 來自量子位發表於業界精選

ChatGPT到底有多會修bug？這事終於有人正兒八經地搞研究——來自德國、英國的研究人員，專門搭個“擂臺”來檢驗ChatGPT的這項本領。除ChatGPT之外，研究人員還找來其它三位修bug的“AI猛將”，分別讓它們修復40個錯誤代碼。結果真是不比不知道，一比嚇一跳。

ChatGPT準確修復其中31個bug，遙遙領先第二名（21個），直接拿下“AI修bug界”的SOTA成績！

於是乎，這項研究引來眾多網友的圍觀和討論，Reddit上發佈此帖的標題更是用上“小心”、“註意”這樣的字眼：

但事實上，這真的會讓程序員“危”嗎？

我們不妨先來看下這項研究。

很會修bug的ChatGPT

雖然ChatGPT並非是為專門修改bug而生，但自打它問世以來，不少網友們都發現它是具備這項能力的。

因此研究人員為摸清ChatGPT到底能修改bug到什麼程度，便引入標準的錯誤修復基準集QuixBugs來進行評估。

以及與它同臺競技的AI選手，分別是CodeX、CoCoNut和Standard APR。

研究人員從QuixBugs中挑40個問題，分別讓它們來修復bug。

讓ChatGPT來修bug的方法，就是在對話框裡向它提問：

這個代碼有什麼錯誤嗎？

在第一輪較量過後，結果如下：

從第一輪battle結果來看，ChatGPT修復19個，CodeX修復21個，CoCoNut修復19個，Standard APR則是7個。

而且研究人員還發現，ChatGPT的答案與CodeX最為相似；這是因為它倆是來自同一個語言模型傢族。

這時候就會有小夥伴要問，“ChatGPT不是還沒有CodeX厲害嗎”。

別急，不要忘，ChatGPT的一個特點就是越問越“上道”。

例如在這個基準集中，有一個叫bitcount的問題，ChatGPT在剛才第一輪修復過程中是給錯誤的答案：

原本ChatGPT應該將第7行的 n ^ = n - 1 改為 n & = n - 1。

但在第一輪中它的回答是：

如果沒有更多關於預期行為和導致問題的輸入信息，我無法判斷程序是否存在錯誤。

於是在給予它更多信息之後，ChatGPT便答對這個問題。

以此類推，在對第一輪沒答對的問題進行更多信息提示之後，ChatGPT的修bug能力有大幅提高：

最終，ChatGPT在QuixBugs的40個問題裡答對31個。

網友憂喜參半

對於這樣的實驗結果，網友們對ChatGPT修bug拿下SOTA這事產生的態度卻不太一樣。

有網友認為這事不應該讓程序員感到危機，而是會讓他們覺得開心才對。

言外之意，便是程序員們有這麼好用的工具，幹活兒就會變得事半功倍。

不過也有人對此給出不一樣的看法：

工作變得簡單，不也就意味著需要的人力更少嗎？

但還網友覺得，活兒是幹不完的：

即使AI能把開發時間縮短一個數量級，也隻是意味著程序員將更快處理下一個工作。

整體來看，ChatGPT很會修bug，並不會給程序員帶來什麼致命傷害。

但若是把目光放到OpenAI其他的行動中呢？

全球招外包訓練ChatGPT寫代碼

在此之前，OpenAI就表示過ChatGPT的重要用途之一是幫助程序員檢查代碼。

換言之，它被定位可用的輔助工具。

相比“ChatGPT帶來威脅”的看法，等ChatGPT能力徹底進化，程序員都不用再怕寫bug。

OpenAI佈局的棋盤上，可不隻有改bug偷塔程序員崗位這一件事。

為讓它更大更強，OpenAI被曝在拉美和東歐等地區，提供1000個外包崗位。

外包員工的主要工作是標註數據，以及訓練ChatGPT寫代碼

這1000人中，40%是程序員，他們為OpenAI的模型創建數據，用來學習軟件工程任務。

一直以來，OpenAI的訓練數據是從GitHub上抓取的。

現在外包程序員們新手搓的數據集，不僅包括代碼行，還包括代碼行背後的人類思考邏輯步驟。

有位南美的軟件開發人員爆料，他為OpenAI完成五小時的無償編碼測試。

整個過程中，他的任務分為兩部分。

用書面英語解釋如何處理一個編碼問題；

提供解決方案。

如果發現bug，OpenAI會向他詳細詢問bug的具體情況，並請教如何修正。

程序員需要展示思考問題的每個步驟，他據此猜測OpenAI很可能想為ChatGPT提供非常具體的訓練數據。

特斯拉前AI主管Andrej Karpathy在推特上調侃：

最新的熱門編程語言是英語。

不過話說回來，ChatGPT修bug能力強是好事，要真能搞進化到可以完成代碼裡死記硬背的部分，也是好事。

畢竟OpenAI成立時對外宣稱的宗旨，就是希望“確保通用人工智能可以造福全人類”。

雖然乍一看它這些年做的事，有點像在致力於用一部分人的努力，讓更多人失業。

從Dota2賽場上碾壓人類，到GPT-3、DALL-E2、ChatGPT的閃耀表現，它帶來的新產品總是伴隨著“快要讓xxx失業”的議論聲。

但無論如何，商業卻一直對它青睞有加。

就目前而言，OpenAI的主要商業模式是API費用、token費用和軟件許可。

OpenAI近期還發佈ChatGPT的付費版ChatGPT Pro，每月費用42美元（約合285元人民幣）。

雖然機器人對話初創公司如雨後春筍般冒出，但諸多跡象表明市場對OpenAI的持續看好。

微軟剛剛宣佈將向OpenAI加碼投資數十億美元，並將OpenAI的模型融入微軟必應等消費級和企業級產品中。

根據知情人士透露，此次追加投資數額約為100億美元。

與此同時，WSJ披露的消息顯示，1月初，億萬富翁Peter Thiel創立的風投基金Founders Fund正在就投資OpenAI進行談判。

據悉，融資金額將至少達3億美元。

One More Thing

在第一輪實驗中，ChatGPT並沒有解決QuixBugs數據集的bitcount問題。

但若是你現在再重頭問一次這個問題，就會發現ChatGPT可以“一遍過”：

那麼這是否意味著ChatGPT已經從這次研究過程中學會求解呢？

相關推薦

當你還在討論分析ChatGPT，有人開始用它“搞錢”

2023-02-07

現在科技圈沒啥比ChatGPT更火，當我們還在熱烈討論的時候，已經有人玩出各種新花樣，甚至已經開始以此賺錢。1會修bug能寫程序還能拿到谷歌百萬年薪offer當然僅僅把ChatGPT當成聊天機器人就有點大材小用。近日，ChatGPT通過谷

ChatGPT大戰司法考試：無需微調，一類試題達到人類水平

2023-01-04

ChatGPT的下一個新身份——做題傢！這不，它已經在人類各個考試中開“卷”。律師、醫生、註會什麼的，它都開始紛紛展露身手。比如，全球考生都頭疼的司法考試，現在ChatGPT在兩項試題達到合格率，其中一項還跟人類水平持

AI可通過鍵盤敲擊聲竊取內容！準確率達95%

2023-08-07

密碼、輸入信息等敏感內容。同時，該模型有著高達95%的準確率。甚至於，這一模型算法，能夠僅通過視頻會議軟件來監聽用戶的鍵盤敲擊聲，從而推斷出輸入的內容，隻是準確率會根據軟件降噪算法的不同，下降到93%至91.7%。

聽懂狗叫未來可期：利用AI解讀狗叫準確率達70%！

2024-06-09

NAOE）的研究人員合作，開發一種AI模型，能夠以高達70%的準確率識別狗的叫聲是在玩耍、生氣還是表達其他情感。這項研究的靈感來源於人工智能在理解人類語音方面的顯著進步，特別是在區分音調、音色和口音的細微差別上。

新的人工智能算法可預測運動隊的動作準確率達80%

2022-10-13

新的人工智能算法可以預測排球運動員的比賽中的行動，準確率超過80%。現在，開發該算法的康奈爾智能系統和控制實驗室正在與BigRed冰球隊合作，擴大該研究項目的應用。這些算法的獨特之處在於，它們對行動預測采取一種全

新算法可提前一周預測到未來的犯罪：準確率達90%

2022-07-01

學傢們開發瞭一種可以提前一周預測未來犯罪的新算法，準確率約為90%，范圍約為1000英尺。它通過從暴力和財產犯罪的公共數據中學習模式來做到這一點。這項研究的論文作者們寫道：“我們報告瞭一種在個人事件層面上預測

AI考公考編指日可待微軟華人團隊發佈全新基準AGIEval 專為人類考試而生

2023-05-11

使用AGIEval基準評估三個最先進的基礎模型，包括GPT-4、 ChatGPT和Text-Davinci-003，實驗結果發現GPT-4在SAT、 LSAT和數學競賽中的成績超過人類平均水平，SAT數學考試的準確率達到95% ，中國高考英語考試的準確率達到92.5% ，表明目前基

隻需一個眼神！韓國醫學院使用AI篩查自閉癥：準確率100%

2023-12-22

，在經過分析之後，該算法成功識別出所有自閉癥患兒，準確率達到100%。研究人員表示：”我們的研究結果表明，由於新生兒視網膜在四歲前一直在生長，因此還需要進一步研究，以確定該工具是否能準確地用於比四歲更小的

給炒作潑盆冷水：人工智能正在遭遇一道難以逾越的天花板

2024-05-09

的發展制造剛性的上限。就拿 OpenAI 的旗艦人工智能產品 ChatGPT4 來說吧，但它相對於 ChatGPT3 的改進要小於 ChatGPT3 相對於 ChatGPT2 的改進，盡管它的準確率提高，但仍然存在跟 ChatGPT3 一樣的幻覺與缺乏理解的問題。雖說OpenAI 對自

一種適合ChatGPT的芯片材料

2023-03-27

ChatGPT的影響超出教育領域，並正在其他領域引起重大變化。AI語言模型以其執行各種任務的能力而聞名，包括論文寫作、翻譯、編碼等，所有這些任務都是通過基於問答的交互進行的。人工智能系統依賴於深度學習，這需要大量

AI文本生成識別新突破！西湖大學推出Fast-DetectGPT

2024-06-29

成的文本，並且Fast-DetectGPT無需訓練，即可準確檢測包括ChatGPT、GPT-4在內的多種AI語言模型生成的文本。Fast-DetectGPT在5月的國際表征學習大會上發表，識別率達到96%，比斯坦福大學的DetectGPT檢測方法速度快340倍，準確率提升75%。

遙遙領先！訊飛首次實現三人同時語音轉寫：確率度極高互不幹擾

2024-06-27

，訊飛首次展示復雜場景下三人同時語音轉寫，效果震撼全場。在現場演示中，三位工作人員在嘈雜的環境中同時說話，每個人的語音都被訊飛星火準確識別，且同步轉寫成文字，準確率度極高，且互不幹擾。此外，訊飛星火還

診斷阿爾茨海默癥將成AI下一突破口 AI檢測準確率超90%

2023-03-08

能在醫學領域的下一個突破可能是診斷阿爾茨海默氏癥。準確率高達90%阿爾茲海默氏癥會導致不可逆轉的認知能力下降和癡呆。自該疾病被發現以來的一個世紀裡，醫學研究人員一直未能找到治療方法和可靠的早期檢測方法。上

OpenAI稱ChatGPT幫助制造生物武器的可能性很小

2024-02-02

效風險基金會（Effective Ventures Foundation）的這項研究考察 ChatGPT 等人工智能工具，以及為科學傢專門設計的人工智能模型，如 ProteinMPNN（可幫助生成新的蛋白質序列）。這項研究由 100 名參與者組成，其中一半是高級生物學專傢

熱門推薦