華人團隊迷你GPT-4搶跑看圖聊天：OpenAI有的它都有服務器已被擠爆

2023-04-19 來自量子位發表於業界精選

看美食圖寫菜譜，手繪網頁變代碼。GPT-4識圖功能遲遲不開放，終於有人忍不住自己動手做一個。MiniGPT-4來，Demo開放在線可玩。傳一張海鮮大餐照片上去，就能直接獲得菜譜。

傳一張商品效果圖，就可以讓AI寫一篇帶貨文案。

手繪一個網頁，可以給出對應的HTML代碼：

除生產力拉滿，也支持根據常識推理圖上內容是否合理、解釋表情包為什麼好笑，以及看截圖找電影等娛樂玩法。

可以說，GPT-4發佈時展示過的功能，MiniGPT-4基本也都有。

這下網友直接把Demo服務器擠爆，開發團隊連開4臺備用服務器，都有幾十人在排隊。

不等OpenAI，現在就能玩

除研究團隊給出的示例，網友也用MiniGPT-4玩出各種花樣

有人上傳自己畫的畫，讓AI評價評價。

有人上傳一張從車道拍攝的飛機墜毀瞬間，讓MiniGPT-4盡可能詳細地描述，並思考自動駕駛AI能不能理解這個場面。

做到這麼好的效果，MiniGPT-4實現起來卻並不復雜。

把圖像編碼器與開源語言模型Vicuna（小羊駝）整合起來，並且凍結兩者的大部分參數，隻需要訓練很少一部分。

傳統預訓練階段，使用4張A100在10個小時內就可完成，此時訓練出來的Vicuna已能夠理解圖像，但生成能力受到很大影響。

為解決這個問題，團隊讓MiniGPT-4與ChatGPT合作創建3500個圖像文本的高質量數據集，也一並開源。

用新的數據集微調可以顯著提高模型的生成可靠性和整體可用性，而且計算效率很高，使用單個A100隻需要7分鐘。

並且團隊正在準備一個更輕量級的版本，部署起來隻需要23GB顯存。

也就是消費級顯卡中擁有24GB顯存的3090或4090就可以本地運行。

MiniGPT-4開發團隊來自KAUST（沙特阿卜杜拉國王科技大學），包括4位華人成員和他們的導師 Mohamed Elhoseiny。

兩位正在讀博的共同一作還在GitHub頁面上特別標註正在找工作。有意向的公司要抓緊搶人~

在線Demo：https://minigpt-4.github.io

開源代碼：https://github.com/Vision-CAIR/MiniGPT-4

論文：https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf

相關推薦