Hugging Face發佈生成式AI健康任務測試基準


生成式人工智能模型正被越來越多地引入醫療保健領域--在某些情況下,也許還為時過早。早期的采用者認為,這些模型可以提高效率,同時揭示那些可能被忽略的診斷視角。而批評者則指出,這些模型存在缺陷和偏差,可能會導致更糟糕的醫療結果。但是,是否有量化的方法來解一個模型在完成總結病人記錄或回答健康相關問題等任務時會有多大幫助或危害?

人工智能初創公司 Hugging Face 在最新發佈的名為 Open Medical-LLM 的基準測試中提出一種解決方案。Open Medical-LLM 是與非營利組織開放生命科學人工智能(Open Life Science AI)和愛丁堡大學自然語言處理小組的研究人員合作創建的,旨在對生成式人工智能模型在一系列醫療相關任務中的性能進行標準化評估。

Open Medical-LLM 本身並不是一個全新的基準,而是將現有的測試集(MedQA、PubMedQA、MedMCQA 等)拼接在一起,旨在探究醫學常識和相關領域(如解剖學、藥理學、遺傳學和臨床實踐)的模型。該基準包含要求醫學推理和理解的選擇題和開放式問題,借鑒美國和印度醫學執照考試和大學生物試題庫等材料。

Hugging Face在一篇博文中寫道:"[開放醫學-LLM]使研究人員和從業人員能夠識別不同方法的優缺點,推動該領域的進一步發展,並最終促進更好的患者護理和治療效果。"


Hugging Face 將該基準定位為對醫療領域生成式人工智能模型的"穩健評估"。但社交媒體上的一些醫學專傢告誡說,不要對 Open Medical-LLM 抱有過高期望,以免導致不明智的部署。

阿爾伯塔大學神經病學住院醫生利亞姆-麥考伊(Liam McCoy)在"X"上指出,醫學答疑的"人為環境"與實際臨床實踐之間的差距可能相當大。

圖片.png

博文的共同作者、"Hugging Face"研究科學傢 Clémentine Fourrier 對此表示贊同。

"這些排行榜隻應作為針對特定用例探索哪種[生成式人工智能模型]的第一近似值,但隨後始終需要進行更深入的測試階段,以檢驗模型在真實條件下的局限性和相關性,"Fourrier在 X 上回答說,"醫療[模型]絕對不應該由患者自行使用,而應該經過培訓,成為醫學博士的輔助工具。"

這不禁讓人想起Google在泰國嘗試將糖尿病視網膜病變的人工智能篩查工具引入醫療系統時的經歷。Google創建一個深度學習系統,可以掃描眼睛圖像,尋找視網膜病變的證據,視網膜病變是導致視力喪失的主要原因。但是,盡管理論上具有很高的準確性,該工具在實際測試中被證明並不實用,結果不一致,與實際操作普遍不協調,令患者和護士都感到沮喪。

美國食品和藥物管理局迄今已批準 139 種與人工智能相關的醫療設備,其中沒有一種使用生成式人工智能,這很能說明問題。要測試生成式人工智能工具在實驗室中的表現如何轉化到醫院和門診中,或許更重要的是測試其結果如何隨時間變化,這異常困難。

這並不是說 Open Medical-LLM 沒有用處或信息量不大。結果排行榜可以提醒人們,模型對基本健康問題的回答有多麼糟糕。但是,Open Medical-LLM 以及其他任何基準都無法替代經過深思熟慮的真實世界測試。


相關推薦

2024-02-27

大動作,谷歌這就又搶先一步。矽谷大廠,已經卷翻天!Hugging Face CEO也跟帖祝賀。還貼出Gemma登上Hugging Face熱榜的截圖。Keras作者François Chollet直言:最強開源大模型,今日易主。有網友已經親自試用過,表示Gemma 7B真是速度飛快

2023-08-29

媒體X(Twitter)上官宣,旗下投資機構Salesforce Ventures領投Hugging Face最新一輪的融資。據外媒援引知情人士消息,Salesforce投2億美元,此輪融資後,Hugging Face估值超過40億美元(約292億元)。這意味著,和上一輪估值比,Hugging Face的估

2023-04-27

4月25日,構建大型開源社區的AI初創公司HuggingFace(抱抱臉)宣佈推出開源聊天機器人HuggingChat。與ChatGPT類似,HuggingChat可以完成一些復雜的生成任務,包括編寫代碼、起草電子郵件、創作歌詞等等,號稱“開源版Android應用商店

2024-02-22

istral,特別是在數學、代碼能力上表現突出,還直接登頂Hugging Face開源大模型排行榜。Gemma登頂Hugging Face開源大模型排行榜(圖源:X)Google同步放出技術報告,通過深度解讀,智東西註意到除模型性能優異外,Gemma的分詞器詞表

2023-04-14

高舉旗幟來一場革命。其中,尤其引人註目的是一傢名為Hugging Face開源創業公司。目前,Hugging Face已經是全球最受歡迎的開源機器學習社區和平臺,不僅創下GitHub有史以來增長最快的AI項目記錄,估值也一路沖破20億美元。近期

2023-08-10

。- 集成AI開發工具和存儲庫AI Workbench與GitHub、NVIDIA NGC、Hugging Face等服務集成,開發者可以使用JupyterLab和VS Code等工具,並在不同平臺和基礎設施上進行開發。- 增強協作AI Workbench采用的是以項目為中心的架構,便於開發者進行自

2024-04-19

式在各種雲平臺上托管,包括AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM的WatsonX、Microsoft Azure、NVIDIA的NIM和Snowflake。未來,還將提供針對 AMD、AWS、戴爾、英特爾、NVIDIA 和高通硬件優化的模型版本。而且,功能更強大的型號

2024-04-17

成式人工智能領域的主要參與者,包括 OpenAI、Anthropic、Hugging Face 和 Inflection,都獲得一輪可觀的融資。7.數據顯示,人工智能讓打工人更有生產力,工作質量更高2023 年,多項研究評估人工智能對勞動力的影響,表明人工智能

2024-05-12

問責開源工具的公共投資的力量"。人工智能初創公司Hugging Face的首席執行官克萊門特-德朗格(Clément Delangue)提出將Inspect與Hugging Face的模型庫整合在一起,或利用工具集的評估結果創建一個公共排行榜的想法。Inspect 發佈之

2023-12-05

作"是碳排放最糟糕的活動。人工智能初創公司 Hugging Face 和卡內基梅隆大學最近發表一份研究報告,試圖通過分析不同的活動和生成模型,解人工智能系統對地球的影響。論文研究人工智能模型在1000次查詢中產生的平

2023-04-23

復旦大模型MOSS,正式開源!作為國內首個開放測試的類ChatGPT產品,MOSS開源地址一放出,又沖上知乎熱搜:從官網介紹來看,MOSS是一個擁有160億參數的開源對話語言模型。它由約7000億中英文及代碼單詞預訓練得到,精度要求不

2024-04-13

幫助你發現 Instagram 上的新內容。例如,用戶在 Threads 上發佈的視頻顯示,您可以點擊"美麗的毛伊島日落卷軸"等提示,搜索與該主題相關的卷軸,除此之外,用戶還可以要求 Meta AI 搜索 Reels 建議。這意味著,Meta 計劃利

2024-02-08

前,LLama 2 在 Github 收獲 8.5k forks 和 41 位 Contributors,在 Hugging face 上也收獲 27 位 Team members。大量的使用反饋,來自全球的代碼貢獻,讓 LLama 2 正在飛速進化。紮克伯格本人在今年 2 月的財報電話會上,也聊到關於 LLama 和開源策

2024-02-22

本電腦或臺式電腦上運行"。這些模型將通過 Kaggle、Hugging Face、NVIDIA 的 NeMo 和Google的 Vertex AI 提供。Gemma 進入開源生態系統的方式與 Gemini 的發佈方式截然不同。雖然開發者可以在 Gemini 的基礎上進行開發,但他們要麼通過 API