大模型也“刷模擬題”?復旦AI4S團隊為解決模型數據稀缺難題提供新思路

“真題有限的情況下,學生可以通過做模擬題提高成績,類似的邏輯在基礎模型訓練上也成立。”針對部分垂直領域基礎模型訓練中的高質量數據稀缺難題,復旦大學計算機科學技術學院顏波教授團隊創新性地提出了一種實現數據高利用率的基礎模型訓練框架,利用可控生成式人工智能(AIGC)生成合成數據,并采用“真實數據+合成數據”的混合數據模式訓練基礎模型。依托該框架訓練的醫療基礎模型性能表現優秀。
日前,相關成果在《自然·生物醫學工程》(Nature Biomedical Engineering)上,以題為《數據高效的高性能醫學基礎模型訓練策略》(A data-efficient strategy for building high-performing medical foundation models)的論文發表。該策略利用生成式AI生成大規模合成數據集,從而擴展有限的真實預訓練數據集,為解決數據稀缺難題提供了新思路。
基礎模型是一種基于深度神經網絡和自監督學習(SSL)技術,在大規模、廣泛來源數據集上訓練的AI模型。相較于只能完成特定任務的專用AI模型,基礎模型的獨特之處在于其強大的泛化能力。通過大規模數據預訓練提取通用特征,垂直領域的基礎模型可以完成各種不同下游任務。
然而,大規模高質量數據的獲取面臨挑戰。以醫療為例,收集大規模真實數據集不僅成本高昂、耗時漫長,還具有隱私泄露風險。在惡性腫瘤診斷、工業焊縫瑕疵檢測等數據稀缺場景,傳統基礎模型訓練方法效果受限,難以推廣。
在數據有限的情況下,如何開發基礎模型?在AIGC領域深耕10余年,顏波團隊將目光瞄準了AI合成數據,采用大量合成數據讓模型學習,彌補現有真實數據的不足,實現讓模型“訓得好”。團隊在少量公開的真實醫學數據上微調可控生成式AI,整合特定疾病知識,并以疾病概念作為條件生成大規模合成醫學數據集。醫學基礎模型先后在合成數據和有限真實數據上使用SSL技術預訓練,以初始化模型參數并學習精確醫學表征。最后,團隊通過帶明確標簽的監督微調基礎模型,使其適配特定任務。
數據高效的醫學基礎模型訓練框架
如何確保合成數據在模型訓練中的有效性?一方面,合成數據均基于真實數據標簽生成,與真實數據特征非常接近;另一方面,團隊在訓練過程中引入條件混合增強,使數據特征更加多樣。顏波用“做模擬題”比喻這一過程:
“真題是有限的,但我們可以根據真題編寫更加靈活、多變的模擬題。讓學生先做模擬題了解題型、再做真題,學生考試就能考得更好。脫胎于真實數據、具有豐富特征的合成數據可以增加數據集的多樣性,基礎模型也能‘見多識廣’,從而提升性能。”
團隊遵循該方法構建了首個基于合成數據的視網膜基礎模型RETFound-DE,使用16.7%的真實數據即在多項疾病診斷任務中和《自然》雜志報道的RETFound模型[1]性能相當。使用20%真實數據構建的胸片X光基礎模型CXRFM-DE同樣展現了較好的性能和泛化能力,進一步驗證了該訓練框架的有效性。
除了智慧醫療之外,該創新基礎模型訓練方法為所有因數據限制而難以構建基礎模型的領域提供了新的解決方案,目前已經在工業界瑕疵檢測、監控異常分析、新材料設計、和船舶發動機智能制造等產業實際痛難點中得到初步應用。高質量數據缺乏問題是所有AI領域均面臨的重要問題。顏波介紹,“在算法層面嘗試解決小樣本問題效果有限,在數據層面進行突破為這一問題提供了新思路。未來,這一理念將為智能制造、智慧醫療等各行各業提供支持。”
該研究還對推動合成數據的應用提供了啟發。團隊驗證了合成數據在泛化能力、標注效率和訓練效率上的價值,并詳細探索了合成數據在均衡樣本分布、合成數據量控制、克服數據偏差等方面的使用方式。盡管合成數據在AI基礎模型訓練中展現出巨大潛力,但需注意過度依賴合成數據可能影響泛化能力,并引入數據偏差,確保合成數據在AI模型訓練中的正確使用,需要有效的驗證和監管。
該工作由復旦大學計算機科學技術學院數字媒體實驗室完成(https://dml.fudan.edu.cn/)。實驗室博士生孫玉齊和青年研究員譚偉敏博士為該工作的共同第一作者,顏波教授為通訊作者,作者還包括實驗室博士生何瑞安,碩士生谷卓遙、陳思源、龐淼。該研究工作得到國家自然科學基金委和上海市科委項目資助。
原文鏈接:https://www.nature.com/articles/s41551-025-01365-0
Code:https://github.com/Jonlysun/DERETFound
本文鏈接:http://www.albanygandhi.com/news-3-2073.html大模型也“刷模擬題”?復旦AI4S團隊為解決模型數據稀缺難題提供新思路
聲明:本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
早安唯美句子
清晨的陽光唯美句子
世界晚安唯美句子
冬日暖陽的唯美句子
描寫西湖的詩
付款委托書
法人代表授權委托書
初二語文教師下學期工作計劃
小年的詩句
月亮的古詩
推薦:白條額度自己怎么套出來(十年本地商家這10種方法告知)-知者
重磅公布!2025印度伊馬替尼最新價格一覽表!印度格列衛代購渠道多少錢一盒:底價僅660元起!國內上市伊馬替尼yb報銷后多少錢?2025yb價格官宣!
東莞套visa信用卡怎么刷出來2024年必看!
揭秘!國內印度奧拉帕尼代購價格貴不貴?底價代購印度奧拉帕尼多少錢一盒真實售價一覽表!印度奧拉帕尼哪里買如何方便獲取2025全球購藥指南更新
如登春臺:南昌青山湖區上門代還信用卡,找我就可以了,便捷商家
持之以恒:羊小咩最簡單TX方法?-?最新9個操作方法
透露:找人套京東白條一般收費多少-記住這幾個方法輕松提現
頂天立地:上海寶山區墊還信用卡,怎么刷出來,5種常用方式
一氣呵成:萬事達卡怎么套出來,詳細教程已更新怎么刷(小白必讀攻略)提
京東白條額度怎么取現出來(悄悄告訴你最新7個好方法)