大模型也“刷模擬題”?復旦AI4S團隊為解決模型數據稀缺難題提供新思路

復旦大學
86次瀏覽

“真題有限的情況下,學生可以通過做模擬題提高成績,類似的邏輯在基礎模型訓練上也成立。”針對部分垂直領域基礎模型訓練中的高質量數據稀缺難題,復旦大學計算機科學技術學院顏波教授團隊創新性地提出了一種實現數據高利用率的基礎模型訓練框架,利用可控生成式人工智能(AIGC)生成合成數據,并采用“真實數據+合成數據”的混合數據模式訓練基礎模型。依托該框架訓練的醫療基礎模型性能表現優秀。TV6知多少教育網-記錄每日最新科研教育資訊

日前,相關成果在《自然·生物醫學工程》(Nature Biomedical Engineering)上,以題為《數據高效的高性能醫學基礎模型訓練策略》(A data-efficient strategy for building high-performing medical foundation models)的論文發表。該策略利用生成式AI生成大規模合成數據集,從而擴展有限的真實預訓練數據集,為解決數據稀缺難題提供了新思路。TV6知多少教育網-記錄每日最新科研教育資訊

TV6知多少教育網-記錄每日最新科研教育資訊

基礎模型是一種基于深度神經網絡和自監督學習(SSL)技術,在大規模、廣泛來源數據集上訓練的AI模型。相較于只能完成特定任務的專用AI模型,基礎模型的獨特之處在于其強大的泛化能力。通過大規模數據預訓練提取通用特征,垂直領域的基礎模型可以完成各種不同下游任務。TV6知多少教育網-記錄每日最新科研教育資訊

然而,大規模高質量數據的獲取面臨挑戰。以醫療為例,收集大規模真實數據集不僅成本高昂、耗時漫長,還具有隱私泄露風險。在惡性腫瘤診斷、工業焊縫瑕疵檢測等數據稀缺場景,傳統基礎模型訓練方法效果受限,難以推廣。TV6知多少教育網-記錄每日最新科研教育資訊

在數據有限的情況下,如何開發基礎模型?在AIGC領域深耕10余年,顏波團隊將目光瞄準了AI合成數據,采用大量合成數據讓模型學習,彌補現有真實數據的不足,實現讓模型“訓得好”。團隊在少量公開的真實醫學數據上微調可控生成式AI,整合特定疾病知識,并以疾病概念作為條件生成大規模合成醫學數據集。醫學基礎模型先后在合成數據和有限真實數據上使用SSL技術預訓練,以初始化模型參數并學習精確醫學表征。最后,團隊通過帶明確標簽的監督微調基礎模型,使其適配特定任務。TV6知多少教育網-記錄每日最新科研教育資訊

TV6知多少教育網-記錄每日最新科研教育資訊

數據高效的醫學基礎模型訓練框架TV6知多少教育網-記錄每日最新科研教育資訊

如何確保合成數據在模型訓練中的有效性?一方面,合成數據均基于真實數據標簽生成,與真實數據特征非常接近;另一方面,團隊在訓練過程中引入條件混合增強,使數據特征更加多樣。顏波用“做模擬題”比喻這一過程:TV6知多少教育網-記錄每日最新科研教育資訊

“真題是有限的,但我們可以根據真題編寫更加靈活、多變的模擬題。讓學生先做模擬題了解題型、再做真題,學生考試就能考得更好。脫胎于真實數據、具有豐富特征的合成數據可以增加數據集的多樣性,基礎模型也能‘見多識廣’,從而提升性能。”TV6知多少教育網-記錄每日最新科研教育資訊

團隊遵循該方法構建了首個基于合成數據的視網膜基礎模型RETFound-DE,使用16.7%的真實數據即在多項疾病診斷任務中和《自然》雜志報道的RETFound模型[1]性能相當。使用20%真實數據構建的胸片X光基礎模型CXRFM-DE同樣展現了較好的性能和泛化能力,進一步驗證了該訓練框架的有效性。TV6知多少教育網-記錄每日最新科研教育資訊

除了智慧醫療之外,該創新基礎模型訓練方法為所有因數據限制而難以構建基礎模型的領域提供了新的解決方案,目前已經在工業界瑕疵檢測、監控異常分析、新材料設計、和船舶發動機智能制造等產業實際痛難點中得到初步應用。高質量數據缺乏問題是所有AI領域均面臨的重要問題。顏波介紹,“在算法層面嘗試解決小樣本問題效果有限,在數據層面進行突破為這一問題提供了新思路。未來,這一理念將為智能制造、智慧醫療等各行各業提供支持。”TV6知多少教育網-記錄每日最新科研教育資訊

該研究還對推動合成數據的應用提供了啟發。團隊驗證了合成數據在泛化能力、標注效率和訓練效率上的價值,并詳細探索了合成數據在均衡樣本分布、合成數據量控制、克服數據偏差等方面的使用方式。盡管合成數據在AI基礎模型訓練中展現出巨大潛力,但需注意過度依賴合成數據可能影響泛化能力,并引入數據偏差,確保合成數據在AI模型訓練中的正確使用,需要有效的驗證和監管。TV6知多少教育網-記錄每日最新科研教育資訊

該工作由復旦大學計算機科學技術學院數字媒體實驗室完成(https://dml.fudan.edu.cn/)。實驗室博士生孫玉齊和青年研究員譚偉敏博士為該工作的共同第一作者,顏波教授為通訊作者,作者還包括實驗室博士生何瑞安,碩士生谷卓遙、陳思源、龐淼。該研究工作得到國家自然科學基金委和上海市科委項目資助。TV6知多少教育網-記錄每日最新科研教育資訊

原文鏈接:https://www.nature.com/articles/s41551-025-01365-0TV6知多少教育網-記錄每日最新科研教育資訊

Code:https://github.com/Jonlysun/DERETFoundTV6知多少教育網-記錄每日最新科研教育資訊

本文鏈接:http://www.albanygandhi.com/news-3-2073.html大模型也“刷模擬題”?復旦AI4S團隊為解決模型數據稀缺難題提供新思路

聲明:本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

熱門文章

延伸閱讀

相關閱讀

2024年藝考新規定(2024年藝考改革政策)
藝考規則重點(一):根據教育部文件指示,2024年以后,藝術類校考依然允許存在,只是需要在省級統考基礎上組織校考,積極采用線上考試、統考初選等方式嚴格控制現場校考人數,原則上不超過相關專業招生計劃的6—8倍。2024年起,不
舞蹈生可以考什么大學 哪個好
舞蹈生可以考什么大學 哪個好相關內容,小編在這里做了整理,希望能對大家有所幫助,關于舞蹈生可以考什么大學 哪個好信息,一起來了解一下吧! 舞蹈藝考生能考的大學的很多,有舞蹈專業的大學都可以考,比
唐山中職春季高考分數線 春季高考各個學校分數線
今天小編為大家帶來了唐山中職春季高考分數線 春季高考各個學校分數線,希望能幫助到大家,一起來看看吧! 臨沂藝術學校2023分數線如下: 1、五年制、三二連讀高等職業教育、高等師范教育幼兒
新疆文科考生人數(新疆高考報名時間2024年具體時間)
新疆文科考生人數(新疆高考報名時間2024年具體時間)很多朋友對這方面很關心,整理了相關文章,供大家參考,一起來看一下吧! 新疆2022年文科考生人數是21.85(萬人),各省高考報名人數排名: 1、河南13
泰州二本大學有哪些
泰州二本大學有哪些很多朋友對這方面很關心,整理了相關文章,供大家參考,一起來看一下吧! 泰州二本大學有泰州學院、南京師范大學泰州學院、南京理工大學泰州科技學院等大學。 1、泰州學院
河北傳媒學院招專科生嗎
最近經常有小伙伴私信詢問河北傳媒學院招專科生嗎相關的問題,今天,小編整理了以下內容,希望可以對大家有所幫助。 河北傳媒學院是有專科招生。 河北傳媒是民辦學校。 民辦學校通常是社

熱點精選

最新推薦

您可能感興趣

主站蜘蛛池模板: 99久久久精品免费观看国产| 国产卡1卡2卡三卡网站免费| 亚洲av无码电影网| 野花高清在线观看免费完整版中文| 国内精品视频在线播放一区| 久久国产真实乱对白| 男女爱爱免费视频| 国产三级在线观看| 成人免费观看一区二区| 少妇一晚三次一区二区三区| 久久久久女人精品毛片九一| 涩涩高清无乱码在线观看| 另类人妖交友网站| 最新亚洲精品国自产在线观看| 无码一区二区三区| 久久精品国产精品青草| 欧美亚洲综合网| 亚洲欧美精品久久| 草莓视频未满十八勿网站| 国产极品麻豆91在线| 2021乱理片宅它网| 国语自产偷拍精品视频偷拍| jizzjizzjizzjizz国产| 德国女人一级毛片免费| 亚洲中久无码永久在线观看同| 污污动漫在线看| 国产乱子伦农村叉叉叉| 91成人午夜性a一级毛片| 无遮挡h肉动漫网站| 亚洲日本一区二区三区在线不卡| 色狠狠一区二区三区香蕉| 国产成人一级片| 欧美丝袜一区二区三区| 奇米在线777| 一级有奶水毛片免费看| 手机看片一区二区| 亚洲va欧美va| 狼群资源网在线视频免费观看| 国产免费av一区二区三区| 91色视频网站| 国产欧美另类久久精品蜜芽|