AI程序員Devin臥底工作群修bug 還和CTO聊技術


首個AI程序員Devin,現身明星創業公司內部群。為解決一個技術問題,Devin借用其創造者的賬號,與客戶公司的CTO交流,並根據回復調整代碼方案。對話之專業,圍觀者看直呼這個世界太瘋狂。


事情發生在辦公軟件Slack,截圖中的akshat是AI基礎設施創業公司Modal LabsCTO Akshat Bubna

Modal Labs也是Devin開發商Cognition的首批客戶之一。

此時Devin正披著他的創造者之一、IOI金牌得主Steven Hao的馬甲。


對話的開始,AI程序員Devin正在詢問有關Modal Lab平臺的密鑰的生命周期問題,特別是密鑰更新後傳播到正在運行的應用程序所需的時間。

Devin表示自己已經查閱文檔,包括密鑰和環境變量指南、CLI命令參考、API參考以及容器生命周期鉤子和參數,但依舊沒有找到關於密鑰傳播時間的明確信息

Devin詢問更新的密鑰通常需要多長時間才能被運行中的應用程序使用,因為這對於他們的運營至關重要,解這一點將有助於管理他們的部署流程


人類CTO解釋說,當密鑰更新時,他們不會使已經運行的Modal容器失效,但是新啟動的容器將會讀取更新後的值。

Devin對此表示感謝,並決定暫時采用手動方法來管理Modal中的密鑰,即在需要時調用modal deploy命令來觸發相關應用程序容器的重啟


看完整個過程後,同樣是AI創業者的Raunak Chowdhuri評價到:

發現問題、創建工單、調整代碼,最好的人類開發者就是這麼工作的。


Devin更多實測結果

拿到Devin早期測試資格的人和公司並不多,不過還是陸陸續續有人曬出實測結果。

熱衷AI的沃頓商學院教授Ethan Molick試過後,認為其新穎的實時交互方式是最值得關註的。

您可以隨時與它“交談”,就像與人交談一樣,它會在後臺不斷地執行和調試您的想法。


在測試中,Ethan Mollick要求Devin開發一個解釋“創業公司融資中的股權稀釋”的網站。

不過他透露,AI還無法在沒有任何幫助的情況下,自主且無差錯地完成這項工作。

要想把一個重大項目交給人工智能來完成,還有很長的路要走,但這仍然是一個令人著迷的開始。


另一位曬出測試過程的創業者Mckay Wrigley更激動一些。


在他曬出的27分鐘測試中,隻發一個GitHub連接,讓Devin部署來自開源項目的代碼。


Devin自主把任務拆解成一系列子步驟,並一步步開始執行。


執行過程中,Devin在安裝Supabase數據庫時遇到障礙,自己打開對應的Github倉庫開始查閱文檔……


從後續終端反饋中可以看出,Devin查到運行Supabase所需的各種端口和密匙都應該填什麼。

(裝過的都知道,雀食挺麻煩……)


與此同時,Devin還在根據實際情況不斷修改自己的後續計劃


一段時間過後,一個本地的聊天機器人程序就跑起來。


測試一段時間後Mckay Wrigley認為,Devin已經可以算Agent的ChatGPT時刻。


復現Devin計劃ing

Devin這邊大夥還在接連測試,另一邊開源“復現”方案也在進行中……

這不,GitHub三萬Star項目MetaGPT就上新“開源版Devin”。


名為數據解釋器(Data Interpreter):


同Devin一樣,Data Interpreter也能實現自主編程,能迭代式觀察數據,預測分析病情進展、機器運行狀態;還能構建機器學習模型、進行數學推理、自動回復電子郵件、仿寫網站……

比如從英偉達股價數據中分析收盤價格趨勢:


分析數據預測葡萄酒質量:


除此以外,阿裡Qwen成員Binyan Hui等人開啟OpenDevin項目,剛剛起步已獲得1.2k Star。


Binyan Hui發推文表示,已有一個初步的路線圖和一群優秀的人在努力工作,在很短的時間內就完成前端原型。

同時項目團隊也在招新成員:


另外,還一個名為Maisa AI的團隊推出Maisa KPU(Knowledge Processing Unit),被網友認為與Devin有一些競爭。


目前Maisa KPU處於測試階段,它可以解決復雜問題和推理,團隊發佈的基準測試結果如下:


根據demo展示,KPU可以成為“智能客服”,在客戶沒有正確寫好訂單號的情況下,幫助客戶解決訂單未送達的問題:


Devin基準測試技術報告發佈

最近,Devin創始團隊Cognition還發佈關於SWE-bench測試的技術報告。

除之前已公佈的測試結果之外,團隊還透露一些新消息。


比如,Cognition的目標之一是讓Devin這個專門從事軟件開發的AI智能體能夠成功地為大型、復雜的代碼庫貢獻代碼。

選擇在SWE-bench上端到端運行智能體,也是考慮它更接近現實世界的軟件開發。

此外,研發團隊還透露,為防止Devin在測試中作弊,比如查找外部的pull requests信息,測試已做相關設置,確保Devin無法訪問相關信息,並且在此過程中也已人工手動檢查Devin運行情況。


最後團隊強調Devin仍處於起步階段,還有很大改進空間:


更多細節感興趣的傢人們可查看報告詳情。

Devin發佈不到一周,網友們的討論已十分熱烈。

比如,這位大兄弟表示自己一年前擔心的事兒終究還是發生。

以後Stack Overflow上都是各種Devin在提問,人,就隻能被擠出去(Stack Overflow危!!!):


有網友回應(手動狗頭):

它們可以互相回答問題。


還有網友發現Devin背後團隊Cognition正在招全職軟件工程師,於是緩緩打出一個問號:

Devin不是應該填補這些職位空缺來為他們省錢嗎?


最後,若Devin公開你會想用它幹點啥?

參考鏈接:

[1]https://www.cognition-labs.com/post/swe-bench-technical-report

[2]https://x.com/raunakdoesdev/status/1769066769786757375

[3]https://twitter.com/emollick/status/1768742585122558063

[4]https://x.com/mckaywrigley/status/1767985840448516343

[5]https://x.com/maisaAI_/status/1768657114669429103?s=20


相關推薦

2024-03-14

4日消息,據媒體報道,初創公司Cognition AI推出全球首個AI程序員Devin,其最大突破在於大大提升計算機推理和規劃能力。據解,Devin掌握全棧技能、自學新技術、構建和部署應用程序、自主查找並修復Bug、訓練和微調自己的AI模型

2024-03-17

Devin到底是一個漂亮的Demo,還是一個已經能替代程序員的智能體,使用體驗怎麼樣,拿到測試資格的網友第一時間分享自己的體驗。由10枚IOI金牌在手的創業團隊CognitionAI開發的全球首個AI程序員智能體Devin,一發佈就讓科技圈坐

2024-04-02

AI程序員Devin上線幾周之後,新一輪融資已經達到20億美元。紅杉警告,AI公司買GPU花500億,產生的收入隻有30億……成立不到半年,估值達到20億美元!AI程序員Devin的母公司CognitionAI殺瘋。CognitionAI正式成立於2023年底,種子輪融資

2024-03-14

"Devin"的自主代理,它可以取代傳統的程序員。CognitionLabs的人工智能Devin專註於類比推理而非預設答案,使其更加有效。當我們談論人工智能時,"字面上"的意思是一種可以與人類共存的技術,它能以難

2024-03-17

全球首個AI程序員Devin誕生之後,讓碼農紛紛恐慌。沒想到,微軟同時也整出一個AI程序員——AutoDev,能夠自主生成、執行代碼等任務。網友驚呼,AI編碼發展太快。全球首個AI程序員Devin的橫空出世,可能成為軟件和AI發展史上一

2023-02-06

“小心”、“註意”這樣的字眼:但事實上,這真的會讓程序員“危”嗎?我們不妨先來看下這項研究。很會修bug的ChatGPT雖然ChatGPT並非是為專門修改bug而生,但自打它問世以來,不少網友們都發現它是具備這項能力的。因此研

2023-11-27

致癌物?要說“竄稀套餐”,首先想到的是原材料和加工程序。一般情況下,原材料均經過配送檢測多無大礙,問題可能會集中在加工程序。油鍋炸制就是後廚的重要加工程序之一。新浪科技發現,華萊士的炸油顏色已如同醬油

2024-03-16

好萊塢大導Tyler Perry在Sora剛剛發佈一周後,取消8億美元工作室擴建計劃的消息。對此,導演Scott Mann也認為,Sora將“給我們的行業帶來自電影攝影機發明以來最大的變革。”2018年,Mann參與創立Flawless,來開發AI電影制作工具。他

2024-03-12

CEO李彥宏在接受央視采訪時表示,基本上以後不會存在“程序員”這種職業,因為隻要會說話,人人都會具備程序員的能力。“未來的編程語言隻會剩下兩種,一種叫做英文,一種叫做中文,這也是目前世界上人工智能技術最領

2023-02-07

玩出各種新花樣,甚至已經開始以此賺錢。1會修bug能寫程序 還能拿到谷歌百萬年薪offer當然僅僅把ChatGPT當成聊天機器人就有點大材小用。近日,ChatGPT通過谷歌的面試,拿到年薪18萬美元的L3工程師offer。要知道年薪百萬的谷歌程

2023-03-27

而不是消滅)人們的能力,最初是為視頻遊戲和其他應用程序開發人工智能。2016 年,發佈第一個工具OpenAI Gym用於研究強化學習,隨後發佈Universe軟件平臺,利用遊戲、網站和其他應用評估和訓練通用智能AI。在隨後的兩年裡,Op

2024-06-21

I峰會上,阿裡雲推出業界首個具備全棧軟件開發能力的AI程序員。這一程序員集成架構師、開發工程師、測試工程師等關鍵崗位技能,能夠獨立完成從任務分解、代碼編寫、測試、問題修復到代碼提交的整個軟件開發流程,且在

2024-04-01

裡有它的兩個關鍵詞:國際奧賽金牌團隊,全球首位 AI 程序員。Cognition 由 Scott Wu 聯合創立,其團隊組成吸引眼球,目前隻有 10 個人,但包含許多國際信息學奧林匹克競賽的金牌選手。Cognition Labs 的團隊,CEO Scott Wu(後排身穿

2023-03-23

是,與必應、Office等剛剛吃上AI紅利的產品不同。GitHub的程序員們最早在2021年已經見過Copilot編程助手的預覽版,這款工具於去年6月向所有個人用戶開放,每月訂閱費用為10美元,後續推出的企業版訂閱為每月19美元。因此,當資