大模型高質(zhì)量語料緣何短缺?

近期,谷歌官方發(fā)布免費開放Gemini pro等系列API(應(yīng)用程序編程接口)。Gemini發(fā)布后僅一天,就有網(wǎng)友實測發(fā)現(xiàn),谷歌的大型模型Gemini承認其使用百度“文心一言”來訓(xùn)練中文訓(xùn)練數(shù)據(jù)(語料)。當(dāng)被問及身份和創(chuàng)始人時,Gemini稱自己是“百度文心大模型”,并指出其創(chuàng)始人為李彥宏。無獨有偶,早在2023年3月,就有消息爆出谷歌的Bard模型部分訓(xùn)練數(shù)據(jù)來源于ChatGPT。
“對于從頭開始訓(xùn)練的模型,語料短缺會在非常大程度上限制大模型發(fā)展。”近日,哈爾濱工業(yè)大學(xué)(深圳)計算機科學(xué)與技術(shù)學(xué)院教授邵睿在接受科技日報采訪時表示,“增加語料對于提升大模型能力的邊際效益正在減弱,高質(zhì)量語料的缺乏正日益成為限制大模型發(fā)展的瓶頸。”
高質(zhì)量語料短缺成為全球共性問題
科技部新一代人工智能發(fā)展研究中心2023年發(fā)布的《中國人工智能大模型地圖研究報告》顯示,從全球已發(fā)布的大模型數(shù)量來看,中國和美國大幅領(lǐng)先,占全球總數(shù)的80%以上。
雖然大模型發(fā)展如火如荼,但大模型高質(zhì)量語料短缺已成為全球共性問題。麻省理工學(xué)院等高校研究人員預(yù)測,到2026年之前,機器學(xué)習(xí)數(shù)據(jù)集可能會耗盡所有可用的高質(zhì)量語料數(shù)據(jù)。
大語言模型對數(shù)據(jù)供給要求極高。公開數(shù)據(jù)顯示,訓(xùn)練GPT-4和Gemini Ultra大概需要4萬億至8萬億個單詞。OpenAI也公開表達過對數(shù)據(jù)告急的擔(dān)憂。
研究機構(gòu)EpochAI亦公開表示,最早在2024年,人類就可能會陷入訓(xùn)練數(shù)據(jù)荒,屆時全世界的高質(zhì)量訓(xùn)練數(shù)據(jù)都將面臨枯竭。
值得注意的是,當(dāng)前大模型數(shù)據(jù)集主要為英文,如BooksCorpus、WiKipedia、Common Crawl、ROOT等,其語料短缺尚難解決,中文語料庫面臨的問題更為嚴(yán)峻。
中國工程院院士、鵬城實驗室主任高文曾公開表示,全球通用的50億大模型數(shù)據(jù)訓(xùn)練集里,中文語料占比僅為1.3%。
上海數(shù)據(jù)交易所市場發(fā)展部副總經(jīng)理章健此前公開表示,當(dāng)前大模型行業(yè)存在語料供應(yīng)不足的問題,特別在垂直細分領(lǐng)域,一些共享、免費下載的語料數(shù)量雖然大,質(zhì)量卻不高。“我們在追求語料數(shù)量增長的同時,也要重視質(zhì)量,是不是高質(zhì)量的語料數(shù)據(jù)。”
阿里研究院在《中美大模型的競爭之路:從訓(xùn)練數(shù)據(jù)講起》公開撰文稱,中文語料、科研成果等高質(zhì)量數(shù)據(jù)集開放程度低,企業(yè)用于訓(xùn)練的語料來源不清晰、權(quán)屬不明確,開源后存在一定的合規(guī)隱患,使得企業(yè)更傾向于自采、自用,大模型數(shù)據(jù)流通機制尚未形成。
如何定義高質(zhì)量語料?
何為高質(zhì)量語料?記者采訪時,包括騰訊、商湯科技、哈爾濱工業(yè)大學(xué)(深圳)等企業(yè)和高校專業(yè)人士均給出一致答案,即高質(zhì)量語料應(yīng)具備多樣性、大規(guī)模、合法性、真實性、連貫性、無偏見和無害,且相關(guān)特征呈現(xiàn)進階式分布。
邵睿表示,高質(zhì)量語料具有多樣性高、句式流暢的特點。關(guān)于語料長度和領(lǐng)域的數(shù)據(jù),分布多樣且平衡。
騰訊機器學(xué)習(xí)平臺算法負責(zé)人康戰(zhàn)輝認為,高質(zhì)量語料的多樣性涵蓋不同類型的文本,如新聞、小說、詩歌、科技文章等,“這有助于大模型學(xué)習(xí)到更豐富的語言表達。”
而大規(guī)模則體現(xiàn)在:大模型需要大量語料來學(xué)習(xí)語言規(guī)律并提高泛化能力。只有擁有充足語料,模型才能更好地捕捉細微的語言特征。
與此同時,合法性則要求語料庫中的文本應(yīng)該是合法且無害,不合法或有害的文本可能導(dǎo)致模型產(chǎn)生不恰當(dāng)?shù)幕卮鸹蚪ㄗh,或無意中泄露隱私。
“高質(zhì)量語料應(yīng)該具有真實性和連貫性,以便讓大模型更好地理解語境并生成符合邏輯的響應(yīng)。”康戰(zhàn)輝說,語料庫應(yīng)該充分反映語料的多樣性并避免偏見,這樣大模型在不同場景下回答不同用戶的問題時才能做到盡可能科學(xué)客觀。
商湯科技發(fā)言人表示:“要解決數(shù)據(jù)問題,不只是單純的增加數(shù)據(jù)總量,還需要提高數(shù)據(jù)質(zhì)量,甚至要考慮怎么設(shè)計數(shù)據(jù)的所有權(quán)和交換機制,推動人工智能數(shù)據(jù)基礎(chǔ)設(shè)施化。”
破題高質(zhì)量語料短缺方法近似
記者采訪中了解到,對于高質(zhì)量語料短缺的問題,業(yè)內(nèi)目前主要采取語料清洗篩選、標(biāo)注分類、預(yù)訓(xùn)練語言模型、建立共享和協(xié)作的平臺等方式。
“騰訊大模型的語料資源,從訓(xùn)練階段可以至少分為預(yù)訓(xùn)練底座數(shù)據(jù)和精調(diào)指令數(shù)據(jù)。”康戰(zhàn)輝介紹,其數(shù)據(jù)來源以業(yè)界公開的互聯(lián)網(wǎng)數(shù)據(jù)為主,如騰訊自有QQ瀏覽器網(wǎng)頁搜索的優(yōu)質(zhì)中文網(wǎng)頁索引,包括搜狗百科在內(nèi)中文百科等數(shù)據(jù),以及來自騰訊各業(yè)務(wù)自有的公開資訊、知識性數(shù)據(jù)收集(騰訊新聞?wù)Z料、微信公眾號文章、騰訊醫(yī)典等)。
康戰(zhàn)輝透露,騰訊也會采買部分授權(quán)數(shù)據(jù)進行訓(xùn)練,主要為各類通俗和專業(yè)書籍、學(xué)科教材、翻譯語料等非公開互聯(lián)網(wǎng)可直接下載或者電子化程度不夠高的知識類數(shù)據(jù)。
與康戰(zhàn)輝的答案類似,邵睿也透露,語料有一部分從數(shù)據(jù)公司購買,有一部分從網(wǎng)絡(luò)公開語料或者公開數(shù)據(jù)集中獲取并整理使用。
“數(shù)據(jù)公司購買的優(yōu)點是質(zhì)量較高,并且大多有垂域數(shù)據(jù)。缺點是數(shù)據(jù)量較少價格較貴。”邵睿對比稱,“網(wǎng)絡(luò)公開語料的優(yōu)點是通用性較好,數(shù)據(jù)量大,缺點是數(shù)據(jù)質(zhì)量無法保證,數(shù)據(jù)格式難以統(tǒng)一。”
“人類歷史上所產(chǎn)生的有效信息,包括大量的高價值信息可能不一定是互聯(lián)網(wǎng)數(shù)據(jù),而是沉散在各行各業(yè)里的數(shù)據(jù)。”商湯科技發(fā)言人認為,“怎樣更多匯聚數(shù)據(jù),設(shè)計更多、更好的網(wǎng)絡(luò)結(jié)構(gòu),用更多的計算資源去支撐更大容量的高質(zhì)量語料,產(chǎn)生更強的智能,這可能是一個長期持續(xù)的話題。”
而在現(xiàn)階段高質(zhì)量語料短缺情況下,如何訓(xùn)練出更“聰明”的大模型?從互聯(lián)網(wǎng)“大廠”過往實踐路徑中可窺探一二。例如:騰訊混元大模型立足于完全自研,采用機器指令半自動化擴展,輔助人工最終標(biāo)注、改寫的方式來自研構(gòu)建。
OpenAI在無數(shù)場合介紹過GPT4訓(xùn)練的經(jīng)驗,但從未公開過數(shù)據(jù)清洗的經(jīng)驗,可謂訓(xùn)練大模型頂級機密。
商湯科技發(fā)言人則表示,在數(shù)據(jù)清洗的過程中投入了上千塊GPU的算力,并建立起大量系統(tǒng)化、工程化的途徑來進行數(shù)據(jù)配方的試錯,可迅速發(fā)現(xiàn)大數(shù)據(jù)庫中的有效數(shù)據(jù)再到小參數(shù)模型上進行驗證。
多措并舉補齊高質(zhì)量語料短缺
數(shù)據(jù)、算法、算力是AI發(fā)展三要素,通俗來講數(shù)據(jù)猶如食材、算法好比食譜、算力則是烹飪工具。盡管高質(zhì)量語料短缺已成為全球共性問題,且破題高質(zhì)量語料短缺方法近似,但業(yè)界正試圖通過多種方式補齊高質(zhì)量語料短缺問題。
記者梳理發(fā)現(xiàn),2023年7月,深圳數(shù)交所聯(lián)合近50家單位成立“開放算料聯(lián)盟”。該聯(lián)盟將圍繞高質(zhì)量中文訓(xùn)練數(shù)據(jù)和多模態(tài)訓(xùn)練數(shù)據(jù),協(xié)調(diào)數(shù)據(jù)要素、數(shù)據(jù)治理、訓(xùn)練數(shù)據(jù)、數(shù)據(jù)標(biāo)注、合成數(shù)據(jù)等相關(guān)標(biāo)準(zhǔn)制定,協(xié)助數(shù)據(jù)交易所增加與大模型相關(guān)的新品類和新專區(qū)。
同樣是2023年7月,在2023世界人工智能大會現(xiàn)場,中國大模型語料數(shù)據(jù)聯(lián)盟成立。同年8月,上海人工智能實驗室宣布,聯(lián)合中國大模型語料數(shù)據(jù)聯(lián)盟成員單位共同開源發(fā)布“書生·萬卷”1.0多模態(tài)預(yù)訓(xùn)練語料。本次開源的數(shù)據(jù)總量超過2TB,包含超5億個文本、2200萬個圖文交錯文檔、1000個影像視頻。
1月2日,廣東省政務(wù)服務(wù)數(shù)據(jù)管理局在官網(wǎng)發(fā)布《廣東省加快數(shù)字政府領(lǐng)域通用人工智能應(yīng)用工作方案》,透露廣東政務(wù)大模型發(fā)展路線圖。
根據(jù)《方案》總體要求,政務(wù)大模型體系于2024年底基本健全。此外,廣東還將探索認定一批機構(gòu)經(jīng)授權(quán)在可信場所進行模型訓(xùn)練,提供基礎(chǔ)數(shù)據(jù)集對大模型進行初始訓(xùn)練,并探索打造粵港澳大灣區(qū)“數(shù)據(jù)特區(qū)”,率先在人工智能創(chuàng)新場景先行先試。
本文鏈接:http://www.albanygandhi.com/news-1-55.html大模型高質(zhì)量語料緣何短缺?
聲明:本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅,請大家謹(jǐn)防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。
2014經(jīng)濟學(xué)考研輔導(dǎo):宏觀經(jīng)濟學(xué)案例分析(5)
2014經(jīng)濟學(xué)考研輔導(dǎo):宏觀經(jīng)濟學(xué)案例分析(3)
2015經(jīng)濟學(xué)考研:微觀經(jīng)濟學(xué)脈絡(luò)圖(第七章)
重慶永川區(qū)大學(xué)(重慶市永川景圣中學(xué)錄取分?jǐn)?shù)2023)
2007年考研國家線(2007年考研國家線一覽)
門頭溝有什么大學(xué),北京化工大學(xué)朝陽校區(qū)離門頭溝區(qū)有多遠
考研復(fù)試考試時間(考研復(fù)試考試時間一般是什么時候)
南充海天考研在哪里,成都海天考研培訓(xùn)機構(gòu)
05年考研英語參考()
中科院都有哪些所_中科院都有哪些所大學(xué)
大吉大利:惠州惠陽代還信用卡墊還,可長期幫還,大家都找他操作
大連套京東白條當(dāng)面取現(xiàn)店鋪支持當(dāng)面!
熱點攻略:印度替莫唑胺代購價格多少錢一盒現(xiàn)在揭曉,2025年印度替莫唑胺多少錢一盒5粒成交價格之后會人民幣110元起!
蘇州線下套京東白條必讀教程線下當(dāng)面支持當(dāng)面!
今日最強的方法-DYDou分期額度如何提出來
歡天喜地:南昌青云譜區(qū)墊還信用卡,怎么刷出來,5種常用方式
歡天喜地:鄭州新密市墊還信用卡,怎么刷出來,5種常用方式
指導(dǎo)!京東白條可以掃微信二維碼付款么,親測五種教程有效
2024年:成都市區(qū)代還信用卡公司秒到賬(用7個流程步驟)
詳解 ,白條套出來一般要多少點,京東額度加油包如何取現(xiàn),