Devin第一手使用體驗:完成度很高 但要替代程序員還很遠


Devin到底是一個漂亮的Demo,還是一個已經能替代程序員的智能體,使用體驗怎麼樣,拿到測試資格的網友第一時間分享自己的體驗。由10枚IOI金牌在手的創業團隊CognitionAI開發的全球首個AI程序員智能體Devin,一發佈就讓科技圈坐立不安。

在演示中,Devin 幾乎已經可以獨立完成很多人類程序員需要大量時間才能完成的工作,效果一點不比普通程序員差。

但是,產品能力的邊界在哪裡,實際體驗和演示時候有差距,還得看上手實測之後的效果。

這位斯坦福的小哥在 Devin 發佈的第一時間就聯系團隊,獲得第一手體驗的資格。


他讓 Devin 幫它做幾個難度不一的項目,錄制一個視頻,在推上寫下自己的使用感受。

首先是讓 Devin 做一個用 API 獲取股票價格的軟件:

下一個任務是讓 Devin 做一個可以讓普通用戶直接與大模型下棋的網站。

需求復雜的編程任務還搞不定

用戶下一步棋,系統會翻譯成提示詞給 GPT-4,然後 GPT-4 進行回復,然後回復再被轉換為反映在棋盤上的具體某一步棋。

按照小哥的要求,系統需要由相當多的部件組成。

他個人最為關註在這個系統的開發過程中,Devin 能不能做到以下幾點:

知道如何準確地使用 GPT-4 API,因為大多數 LLM 實際上並不知道如何使用,並且 API 的調用存在版本沖突。

正確地請求 API 密鑰並安全地處理。

處理包錯誤。

解如何提示 LLM 下棋並能精確地返回提示詞。


令小哥想不到的是,Devin 不僅要求小哥提供 API 密鑰,而且在試用過程中還可以正確地保護它。


不過,Devin 目前反饋速度還相當慢,小哥推測是因為後臺發生的代理提示遠遠比要看到的要多得多。

從小哥發起請求開始,它花大約 19 分鐘才詢問 API 密鑰。

小哥猜測,如果延遲是由於他們在後臺運行大量提示造成的,那麼延遲應該會隨著時間的推移而加快。

因為他們以後可以訪問專用 GPU 或與 Claude 或 OpenAI 合作降低延遲(估計是 GPT-4 或 Claude Opus)。

Devin 首先制定一個規劃。

在右上角,用戶可以切換“跟隨”狀態,這樣用戶可以將屏幕自動移動到#Devin 當前激活的選項卡上。


小哥沒有打開跟隨狀態,因為他希望隨時觀察各個位置的變化。

規劃器會隨時保持針對當前任務的更新狀態。

Shell 看起來和普通的 Shell 沒什麼區別,但用起來真的很有趣!

Devin 在工作過程中會打開多個 shell,在 shell 的底部,用戶可以拖動藍色滑塊來往前查看 Devin 編寫的命令。


下圖是它當在嘗試調試棋盤未渲染的內容。


與此同時,小哥要求它再執行一個數據分析的任務。

小哥讓 Devin 去“創建一張過去五十年南極洲海水溫度的地圖”。

對於這個請求,小哥覺得有兩個方面可能很具有挑戰性:

處理空間數據繪圖 / 可視化。

知道在哪裡下載數據,而且解如何使用數據源,因為地理空間數據處理起來很麻煩。

Devin 能像一個優秀的程序員一樣聰明地閱讀自述文件,並且還執行一些基本的 EDA 來理解數據結構。


數據居然是一個 ascii 文件,小哥覺得有點奇怪。

小哥單擊對話“調試 Python 腳本...”中的其中一個步驟時,它會打開與該步驟相關的代碼庫部分,因此可以跟蹤某一個具體時間點發生的情況。

小哥比較擔心的是,如果不是必須要詢問 API 密鑰,Devin 似乎會不停地編碼停不下來。

所以他試試是否可以更改他之前提出的請求或指定其他內容,中斷 Devin 的編碼過程。

因為對於大部分用戶在編碼時,都有可能會改變主意或者有一些新的東西想要添加進系統之中,能夠處理這種情況是很有必要的。

這是編碼過程中的截圖:


瀏覽器界面的呈現方式如下:


然後小哥又提針對數據可視化的任務又提一個要求,讓系統將高溫設置為藍色,低溫設置為紅色。


為不中斷編碼的過程,似乎 Devin 又開啟一個工作線程來記錄小哥的臨時要求。

最終,Devin 將 App 部署到 Netlify 上,一個應用已經上線。


網頁的鏈接:https://t.co/wTbtz2waDn

就像人類寫的程序一樣,第一個版本肯定是有 Bug 的。


因為小哥要求的是南極洲的溫度記錄,似乎對於 Devin 來說它理解起來有些障礙。


於是小哥把要求顯示的位置改為北美。


總結

小哥沒有給出 Devin 修改 Bug 的結果,隻是初步總結用 Devin 開發的第一個網站的使用體驗。

先說優點:

Devin 產品化做得很好,他給人的使用體驗是一個完整的產品而不是隻是一個簡單的對話框。

AI 是系統最關鍵的部分,但支撐 AI 功能的產品化的結構是 Devin 的亮點。

Devin 能夠完成自動部署,API 密鑰保護,隨時修改和添加需求等等非常好的各種功能。

產品的完成度已經非常高,遠遠超過一般的演示 Demo。

再說缺點:

Devin 的反應還很慢,當然小哥也說,因為他用的是 1M 的 Starlink 來上網,所以反應慢很有可能是他自己的原因。

其次就是還不能允許用戶直接自己編輯代碼,而且也沒法協作完成。

當然,最初那個下棋的應用,難住 Devin,最終沒有完成部署。而那個數據可視化的任務,似乎也有些 Bug。

最終,小哥用 Devin 做一個 chrome 插件,可以幫助用戶把 Github repo 轉化成 Claude prompt。


插件下載地址:https://t.co/k3l8JTWK7Z

網友評價

網友看這個實測之後還是感覺有點失望,畢竟這個任務一個初級程序員是能做到的,但是 Devin 的可視化項目的結果隻做出一個有 Bug 的網頁。


看樣子 Devin 本質上還隻是一個可以上網的大模型,現在要讓他解決實際問題還有難度。


參考資料:

https://twitter.com/itsandrewgao/status/1768012781083566217?s=20

https://twitter.com/varunshenoy_/status/1767591341289250961?s=20


相關推薦

2024-01-31

之處,如售價太高、手動和眼動追蹤缺乏協調性,以及在使用過程中容易讓用戶產生孤獨感等。The Verge:Vision Pro足夠神奇 但想成功卻不容易毋庸置疑,Vision Pro是一款令人驚嘆的產品,是那種隻有蘋果才能打造出的第一代設備,

2024-03-17

基於嵌入的片段檢索。-構建與執行:這類命令允許代理使用簡單直觀的命令毫不費力地編譯、構建和執行代碼庫。底層構建命令的復雜性已被抽象化,從而簡化評估環境基礎架構中的流程。這類命令的示例包括:構建、運行 <

2024-03-17

問更新的密鑰通常需要多長時間才能被運行中的應用程序使用,因為這對於他們的運營至關重要,解這一點將有助於管理他們的部署流程。人類CTO解釋說,當密鑰更新時,他們不會使已經運行的Modal容器失效,但是新啟動的容器

2024-03-14

該公司聲稱,他們的模型已經取得巨大的突破,其中涉及使用推理,而不是僅僅依賴於傳統的數據集。令人興奮的部分來自於 Devin 的編程能力,簡而言之,這項技術確實創造一些奇跡。根據 Cognition Labs 的測試,Devin 通過自寫代

2024-03-14

目前,Devin已經成功通過一傢AI公司面試,並且在Upwork上完成實際工作。而這背後的公司Cognition,雖然是初創公司,但小而精悍。正式成立才不到2個月,僅有10名員工,卻攬獲10塊IOI(國際信息學奧林匹克競賽)金牌,創始成員均

2023-02-09

小的文本,與兩個不同版本的200%的縮放比例。Android14將使用非線性字體縮放,這"確保已經足夠大的文本不會以相同的速度增加到較小的文本"Google還在改進Android 13的每個應用的語言系統,使開發者更容易處理具有語法性

2024-04-02

數也顯得非常離譜。畢竟這個公司的產品還隻是處於邀請使用階段,公司沒有任何盈利,成立也剛半年不到。因為,即便是成立兩年,產品深受用戶喜愛和大佬力薦,號稱要幹掉Google革命搜索行業的Perlexity AI,最近一輪融資的估

2023-05-28

000萬能買到的最好的SUV,會上我們最新最先進的技術,讓體驗上一個最大的臺階。4、預告給大傢,我們正在用大模型做我們的小藝語音,我們今年晚些時候語音會再上一個大臺階,超越所有競爭對手。5、在我的字典裡沒有第二

2024-11-09

呢?高挺稱:“比如有些企業開始開發培訓系統教導如何使用機器人為業務提供支持;或者有些企業在招聘員工或考慮生產力資源時,會把機器也會考慮進去;甚至有些企業會起草一些使用機器人的相關政策的時候,這就是多功

2023-04-02

讓我失業?一個明確的事實擺在眼前,一些企業已經開始使用AI替代部分工作。央視財經在2月就報道,據美國《財富》雜志網站,一傢提供就業服務的平臺對1000傢企業進行調查,結果顯示,近50%的企業表示,已經在使用ChatGPT;3

2022-10-01

是由三人合力推上舞臺的。特斯拉介紹稱,這款機器人將使用特斯拉設計的組件,包括安裝在機器人軀幹上的2.3千瓦時電池組、芯片系統和驅動機器人四肢運動的電機等等。整個機器人的設計重量為73公斤。“它還沒有完全準備

2022-10-13

,幫助我們最終將 Truth Social 帶給所有美國人,無論他們使用什麼設備”。Truth Social 上周在三星 Galaxy Store 上架,用戶也可以從 Truth Social 網站下載。自 2 月以來,該應用程序也已在 Apple 的 App Store 中提供。

2023-03-16

可行性很高的反坦克導彈設計,理論上它可以用無人機來使用。一位團隊成員建議,政府可以用它們來制造更便宜的彈藥,或者幫助烏克蘭軍隊對抗俄羅斯的入侵。然而,與一些公佈3D打印槍支藍圖的團體不同,D&S並不打算公

2023-06-07

會上,蘋果歷時8年開發的Vision Pro MR頭戴正式亮相。媒體體驗後認為完成度很高,這款設備定價3499美元(約合2.5萬元),2024年初將在美國上市。不過,一些調查認為,不少網友吐槽頭戴的定價過高,讓人愛不起來。即便是放在