隨著ChatGPT的誕生和深度學習技術的迅速發展,基于大模型的人工智能系統在自然語言處理領域取得了顯著的進展。面向生物醫學領域,大語言模型在提升醫生與患者之間的溝通、提供有用的醫學信息、輔助診療、生物醫學知識發現、個性化醫療方案等方面潛力巨大。然而,在人工智能社區,現有開源生物醫學大模型相對較少,且大多僅專注于單語(中文或英語)的醫療問答對話任務。
近日,大連理工大學計算機學院信息檢索研究室(DUTIR)羅凌、楊志豪、王健、林鴻飛老師及其團隊在生物醫學大模型領域的研究取得進展,研發了中英雙語生物醫學大模型——太一(Taiyi),旨在探索大模型在生物醫學領域中雙語自然語言處理多任務的能力。團隊開源了中英雙語數據集整理信息、“太一”大模型權重、模型推理使用腳本,并搭建了Demo開放測試,具體信息見項目地址:https://github.com/DUTIR-BioNLP/Taiyi-LLM。
“太一”大模型整體框架圖
“太一”大模型通過問答對話形式與用戶進行交互,可進行病情咨詢、疾病預防、藥物咨詢、信息抽取等多種豐富生物醫學主題相關任務,有助于更有效地管理生物醫學信息,提高醫療決策的質量,提升生物醫學教育的效果等,為智慧醫療領域帶來了很多的可能性?!疤弧贝竽P途哂腥筇攸c:豐富的生物醫學訓練資源,團隊收集整理了豐富的中英雙語生物醫學自然語言處理(BioNLP)訓練語料,其中包含38個中文數據集,102個英文數據集,覆蓋十余種生物醫學任務。出色的中英雙語多任務能力,通過豐富的中英雙語任務指令數據(超過100W條樣本)進行微調,使模型具備較出色的雙語生物醫學智能問答、醫學對話、報告生成、信息抽取、機器翻譯、標題生成、文本分類等多種BioNLP能力。優秀的泛化能力,除生物醫學領域外,模型仍具備通用領域對話能力,并通過設計指令模板的多樣性,使模型具備了較優秀的指令理解能力,在同類任務的不同場景下具有較好的泛化能力,并激發了模型一定的零樣本學習能力。
與現存的生物醫學領域大模型側重于單語醫療問答對話任務不同,“太一”不僅在雙語對話問答方面表現出色,還利用豐富的高質量人工標注生物醫學數據集進行指令微調,挖掘了大模型在生物醫學領域的多任務潛力。這使得“太一”在處理現實生物醫學復雜場景任務時更有通用性,并為智慧醫療領域的發展帶來了更多可能性。
盡管“太一”在多項BioNLP任務上展示了優良的性能,但一些復雜任務(如醫療報告生成、事件抽取等)效果還有很大提升空間。此外,目前“太一”大模型仍存在大模型的一些常見缺點,例如誤解、幻覺、信息有限性、偏見、多輪長對話能力較不穩定、話題轉換能力弱等。在未來的工作中,團隊也將在增量預訓練、強化學習性能增強、可解釋性、安全性等方面進一步深入研究,以提升“太一”的能力。(來源:電子信息與電氣工程學部 編輯:常思萌 王一婷)