大模型預(yù)訓(xùn)練“狼人殺”,是誰(shuí)悄悄掉隊(duì)了?

187次瀏覽

國(guó)內(nèi)最頂尖的這些大模型初創(chuàng)公司,現(xiàn)在站到了該做取舍的十字路口。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

十月初,市場(chǎng)中傳出消息,稱智譜AI、零一萬(wàn)物、MiniMax、百川智能、月之暗面、階躍星辰這六家被稱為“AI六小虎”的中國(guó)大模型獨(dú)角獸中,有兩家公司已經(jīng)決定逐步放棄預(yù)訓(xùn)練模型,縮減了預(yù)訓(xùn)練算法團(tuán)隊(duì)人數(shù),業(yè)務(wù)重心轉(zhuǎn)向AI應(yīng)用。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

所謂預(yù)訓(xùn)練,一般指的是利用大規(guī)模數(shù)據(jù)對(duì)模型進(jìn)行無(wú)特定任務(wù)的初步訓(xùn)練,讓模型學(xué)習(xí)到通用的語(yǔ)言模式、知識(shí)和特征等。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

好比是給一個(gè)還不太懂事的孩子(模型)看大量資料(大規(guī)模數(shù)據(jù)),讓他在這個(gè)過程中不斷學(xué)習(xí)各種知識(shí)、認(rèn)識(shí)各種事物的樣子和規(guī)律(通用的語(yǔ)言模式、知識(shí)和特征)。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

雖然這個(gè)孩子一開始并不知道具體要做什么任務(wù),但通過廣泛學(xué)習(xí),會(huì)形成相對(duì)全面的知識(shí)儲(chǔ)備。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

之后,如果要讓這個(gè)孩子去完成特定的任務(wù),比如寫作文、做數(shù)學(xué)題等,就可以針對(duì)這些具體任務(wù)專門優(yōu)化適配。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

但問題是,這種籠統(tǒng)的大規(guī)模訓(xùn)練往往價(jià)格不菲,且過程多有不確定性,每次基礎(chǔ)模型迭代的訓(xùn)練成本動(dòng)輒就會(huì)達(dá)到百萬(wàn)、千萬(wàn)甚至數(shù)億美金這個(gè)量級(jí)。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

在討論AI行業(yè)現(xiàn)狀的播客中,Anthropic創(chuàng)始人 Dario Amodei 與挪威銀行首席執(zhí)行Nicolai Tangen曾談到,雖然目前許多模型的訓(xùn)練成本為 1 億美元,但“當(dāng)今正在訓(xùn)練的”一些模型的成本接近 10 億美元,且這個(gè)數(shù)字未來(lái)還會(huì)上漲。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

Amodei 表示,人工智能訓(xùn)練成本將在“2025 年、2026 年,也許還有 2027 年”達(dá)到 100 億美元至 1000 億美元大關(guān),他再次預(yù)測(cè),100 億美元的模型可能會(huì)在明年的某個(gè)時(shí)候開始出現(xiàn)。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

一向激進(jìn)的馬斯克為了讓自家 xAI的Grok系列模型后來(lái)居上, 更是大手筆屯集了10萬(wàn)張昂貴的GPU卡。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

對(duì)于這些不缺資源的頭部玩家來(lái)說,預(yù)訓(xùn)練是一個(gè)必選項(xiàng)。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

但對(duì)“AI六小虎”而言,中間過程的黑箱特質(zhì),疊加投入產(chǎn)出比的壓力,讓預(yù)訓(xùn)練的“做與不做”,成了擺在眼前一個(gè)現(xiàn)實(shí)問題。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

預(yù)訓(xùn)練,是模型地基更是大模型公司技術(shù)試金石2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

預(yù)訓(xùn)練的好處顯而易見——模型可以獲得更廣泛的語(yǔ)言理解能力和基礎(chǔ)的智能表現(xiàn),為后續(xù)針對(duì)特定任務(wù)的微調(diào)提供良好的基礎(chǔ)。它可以是后續(xù)產(chǎn)品研發(fā)和應(yīng)用設(shè)計(jì)的強(qiáng)大起點(diǎn),縮短開發(fā)周期,適應(yīng)不同需求。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

當(dāng)年GPT-3橫空出世,預(yù)訓(xùn)練過程為其后續(xù)在各種自然語(yǔ)言處理任務(wù)中的出色表現(xiàn)奠定了堅(jiān)實(shí)基礎(chǔ)。在預(yù)訓(xùn)練階段,GPT-3 使用了海量的互聯(lián)網(wǎng)文本數(shù)據(jù),通過無(wú)監(jiān)督學(xué)習(xí)的方式讓模型學(xué)習(xí)語(yǔ)言的統(tǒng)計(jì)規(guī)律和語(yǔ)義知識(shí)。例如,在問答任務(wù)中,經(jīng)過預(yù)訓(xùn)練的 GPT-3 能夠理解問題的含義,并根據(jù)其在預(yù)訓(xùn)練中學(xué)習(xí)到的知識(shí)生成準(zhǔn)確的答案。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

但相對(duì)應(yīng)的,預(yù)訓(xùn)練也需要用到大量的算力資源和高質(zhì)量數(shù)據(jù),以及復(fù)雜的算法和技術(shù)。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

簡(jiǎn)言之,預(yù)訓(xùn)練的效果取決于兩方面:能力和資源。前者對(duì)應(yīng)算法的先進(jìn)性、數(shù)據(jù)的質(zhì)量和規(guī)模以及工程師的技術(shù)水平等因素,決定了模型能夠?qū)W習(xí)到多少知識(shí)和技能;后者對(duì)應(yīng)計(jì)算資源的投入、數(shù)據(jù)采集和處理的成本、人才等,決定了預(yù)訓(xùn)練能夠進(jìn)行到何種程度和規(guī)模。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

OpenAI團(tuán)隊(duì)在預(yù)訓(xùn)練GPT-3和GPT-4過程中消耗了大量的算力資源和高質(zhì)量數(shù)據(jù)。為了訓(xùn)練GPT-3,OpenAI使用了微軟提供的超級(jí)計(jì)算機(jī)系統(tǒng),該系統(tǒng)擁有超285,000個(gè)CPU核心和10,000個(gè)GPU,訓(xùn)練一次的費(fèi)用高達(dá)460萬(wàn)美元,總成本約1200萬(wàn)美元。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

GPT-3的訓(xùn)練消耗了約3640 PF-days的算力,使用了45TB的預(yù)訓(xùn)練數(shù)據(jù),包括CommonCrawl、網(wǎng)絡(luò)文本、維基百科等。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

而在訓(xùn)練GPT-4時(shí),OpenAI使用了混合專家模型(MoE),包含1.8萬(wàn)億參數(shù),通過16個(gè)專家模型來(lái)控制成本。每次前向傳播使用約2800億參數(shù)和560 TFLOPs。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

據(jù)斯坦福HAI研究所發(fā)布的AI Index報(bào)告顯示,OpenAI的GPT-4訓(xùn)練成本約為7800萬(wàn)美元。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

模型架構(gòu)和算力需求使得其訓(xùn)練和部署需要大量的高性能計(jì)算資源,也就是來(lái)自英偉達(dá)的A100或H100 GPU。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

o1發(fā)布之后,很多人開始大談后訓(xùn)練的重要性。后訓(xùn)練可以顯著提升模型在特定任務(wù)上的性能,但是它無(wú)法改變模型在預(yù)訓(xùn)練階段學(xué)到的基礎(chǔ)特征表示。換句話說,預(yù)訓(xùn)練很大程度上影響著模型性能的基準(zhǔn)線和潛在的上限。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

LlaMa 67B 與LlaMa 3.1 70B 的模型后訓(xùn)練上限是不同的。同理,如果一個(gè)公司能夠在預(yù)訓(xùn)練階段訓(xùn)練出優(yōu)于LlaMa的自有模型,那么與在LlaMa基礎(chǔ)上后訓(xùn)練的公司相比,前者就具備了技術(shù)上的天然優(yōu)勢(shì)。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

這種優(yōu)勢(shì)的建立,需要技術(shù)能力,也需要算力資源——能力和資源,成為了大模型預(yù)訓(xùn)練的兩個(gè)門檻。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

誰(shuí)放棄?誰(shuí)掉隊(duì)?2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

這里的能力,并非跟自家的上一代模型相比,而是跟行業(yè)現(xiàn)有公開成果相比,也就是那些頭部的開源大模型。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

像是由Meta推出、被廣泛調(diào)用的LlaMa系列、馬斯克旗下xAI公司的Grok-1,以及國(guó)內(nèi)阿里云開源的部分Qwen系列模型,都已經(jīng)具備相當(dāng)優(yōu)秀且全面的基礎(chǔ)能力。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

而資源,自然指向的是訓(xùn)練結(jié)果的投入產(chǎn)出比:如果一家公司花費(fèi)大量資源去做預(yù)訓(xùn)練,得來(lái)的成果卻比不上那些開源的模型,那繼續(xù)堅(jiān)持做預(yù)訓(xùn)練就沒什么必要了。那么這種訓(xùn)練就純粹的浪費(fèi)資源,毫無(wú)價(jià)值可言。這里的資源既包含算力、資金,也包含技術(shù)人才。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

眾所周知,國(guó)內(nèi)大模型“小虎”有六七家公司,智譜AI、MiniMax、零一萬(wàn)物、月之暗面、百川智能、階躍星辰、DeepSeek。在大模型預(yù)訓(xùn)練上,各家面臨的難題各不相同,現(xiàn)狀不一。或許我們可以從基座模型成績(jī)上“窺一斑而知全豹”。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

由LMSYS組織的全球大模型競(jìng)技場(chǎng)(ChatBot Arena)是全球頭部大模型企業(yè)同臺(tái)競(jìng)技的權(quán)威盲測(cè)平臺(tái)。在最新一期的榜單上,依次出現(xiàn)了零一萬(wàn)物的Yi-Lightning、智譜 AI 的GLM-4-Plus以及DeepSeek V2.5,這些模型都在榜單上取得了出色的成績(jī)。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

智譜 AI 一向有著“清華系國(guó)家隊(duì)”的稱號(hào),背后的主導(dǎo)人物唐杰也是中國(guó)在人工智能和大模型領(lǐng)域頗具話語(yǔ)權(quán)和聲量的學(xué)術(shù)領(lǐng)軍人物,找融資找算力不在話下;零一萬(wàn)物創(chuàng)始人李開復(fù)同樣在AI領(lǐng)域深耕多年,公司早早布局AI Infra,近期也宣布了新融資,資金算力都不成問題;DeepSeek背靠幻方量化,坐擁上萬(wàn)張GPU,也沒有道理在算力充盈的情況下,放棄預(yù)訓(xùn)練。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

相比之下,另外幾位玩家的現(xiàn)狀就顯得有些“模糊”:2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

月之暗面從成立第一天起便亮明了ToC的決心,也由此成為多家巨頭青睞的對(duì)象,目前也是大模型初創(chuàng)中估值最高的企業(yè)。但除首次發(fā)布會(huì)上發(fā)布Moonshot大模型(后改名為Kimi大模型)、并宣布聚焦長(zhǎng)文本能力之外,月之暗面再未對(duì)外透露更多基座模型的消息。業(yè)內(nèi)更有聲音傳出,月之暗面的基座模型是在已有模型基礎(chǔ)上微調(diào)得來(lái)的,縫合了多種工程模塊后才達(dá)到了目前的效果。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

而實(shí)際上,大模型預(yù)訓(xùn)練除長(zhǎng)文本之外,還有諸多技術(shù)點(diǎn)同樣值得攻堅(jiān):MoE(Mixture of Experts,混合專家模型)模型架構(gòu)、多模態(tài)、RAG(Retrieval-augmented Generation,檢索增強(qiáng)生成)、SSM(Structured State Space Models,結(jié)構(gòu)化狀態(tài)空間序列模型)、o1的COT(Chain of Thought,思維鏈) tokens、RL(Reinforcement Learning,強(qiáng)化學(xué)習(xí))。這些都需要真金白銀與技術(shù)人才的投入,對(duì)于發(fā)力ToC應(yīng)用、選擇在營(yíng)銷獲客方面大量投入的月之暗面而言,繼續(xù)去做大模型預(yù)訓(xùn)練,投入產(chǎn)出比似乎并不高。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

背靠上海國(guó)投的階躍星辰、MiniMax同樣不缺資源。據(jù)上觀新聞報(bào)道,上海國(guó)投已經(jīng)與階躍星辰、MiniMax簽署了戰(zhàn)略合作協(xié)議。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

但單就預(yù)訓(xùn)練階段來(lái)說,MiniMax似乎面臨著與月之暗面同樣的尷尬局面。MiniMax的海外應(yīng)用矩陣中,Talkie已成為頭部出海產(chǎn)品,海螺引起全球矚目,但ABAB大模型很久未有新進(jìn)展,也沒有在LMSYS等平臺(tái)上出現(xiàn)。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

在諸位“小虎”中最晚亮相的階躍星辰則急于證明自己的技術(shù)實(shí)力,年中密集地發(fā)布了千億參數(shù)Step-1和萬(wàn)億參數(shù)Step-2。在階躍星辰的宣發(fā)中,Step-2 萬(wàn)億參數(shù)語(yǔ)言大模型的模型性能逼近 GPT-4,但在LiveBench、Arena-Hard、MT-Bench等國(guó)際權(quán)威Benchmark上成績(jī)?nèi)匀跤贕PT-4-1107。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

越發(fā)活躍的階躍星辰的另一面,則是技術(shù)低調(diào)的百川智能。從2023年8個(gè)月發(fā)布8款模型,到2024年僅發(fā)布3款模型,百川智能在基座模型上的腳步在不斷降速。最新一代基座大模型Baichuan 4選擇打榜國(guó)內(nèi)商業(yè)化榜單SuperCLUE,如LMSYS ChatBot Arena、AlpacaEval 等有學(xué)術(shù)背景、相對(duì)公正的國(guó)際權(quán)威榜單上,Baichuan大模型卻未上榜或未獲好成績(jī)。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

其實(shí),對(duì)于預(yù)訓(xùn)練“知難而退”,并非一種難以啟齒的消極行為。甚至,在當(dāng)前的大環(huán)境下,對(duì)于某些公司來(lái)說,是一個(gè)極為理智的選擇。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

當(dāng)前行業(yè)基礎(chǔ)模型過剩卻少有破圈應(yīng)用產(chǎn)品涌現(xiàn)。錘子多而釘子少。利用行業(yè)中頭部資源、開源大模型去做調(diào)優(yōu),出應(yīng)用產(chǎn)品,務(wù)實(shí)的選擇才更能在大模型的紅海中找到適合自己身份,節(jié)省資源同時(shí)創(chuàng)造價(jià)值。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

只是在選擇放棄預(yù)訓(xùn)練的同時(shí),也意味著走下了AGI的牌桌,將自家模型和應(yīng)用的上限拱手讓于開源模型。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

至此,什么樣的玩家,可以留在AI預(yù)訓(xùn)練這場(chǎng)豪賭的牌桌,答案日漸清晰。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

預(yù)訓(xùn)練成大模型公司靈魂考驗(yàn)人才流動(dòng)頻繁2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

從尖端芯片到美元投資,中美之間在科技領(lǐng)域的競(jìng)爭(zhēng)會(huì)愈演愈烈。LlaMa、Mixtral等開源模型系列未來(lái)前景如何仍未可知。根據(jù)美國(guó)政府最新發(fā)布的信息,美國(guó)即將出臺(tái)限制某些針對(duì)中國(guó)人工智能投資的新規(guī),相關(guān)規(guī)則目前正在最終審核階段,預(yù)計(jì)會(huì)在一周內(nèi)發(fā)布。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

掌握預(yù)訓(xùn)練能力,才能保證自己不下全球大模型競(jìng)爭(zhēng)的牌桌。隨著中美科技角力的加劇,頂尖人才資源的爭(zhēng)奪戰(zhàn)已然成為焦點(diǎn),一場(chǎng)圍繞人才的戰(zhàn)略較量早已爆發(fā)。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

有多位長(zhǎng)期關(guān)注AI領(lǐng)域的獵頭反饋稱,自ChatGPT爆火之后,國(guó)內(nèi)對(duì)于AI領(lǐng)域的頂級(jí)研發(fā)人才的需求持續(xù)走高。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

國(guó)內(nèi)的人才爭(zhēng)奪同樣激烈。如阿里通義千問大模型技術(shù)負(fù)責(zé)人周暢近期被曝出離職消息;曾任職于曠視研究院的周昕宇選擇加盟月之暗面;秦禹嘉被曝從面壁智能離職后,2024年初創(chuàng)立序智科技,數(shù)月后加入字節(jié)跳動(dòng)大模型研究院。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

原滴滴出行AI Labs首席算法工程師李先剛更是被曝在一年多時(shí)間內(nèi)從貝殼跳槽到零一萬(wàn)物、百川智能兩家“AI小虎”公司,前陣子被曝又回到貝殼。“獵頭圈爆料,他先從貝殼到零一萬(wàn)物,再到百川智能,又回貝殼,每家公司都只待了幾個(gè)月。”2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

2023年初時(shí)曾傳出“字節(jié)跳動(dòng)以140萬(wàn)美元年薪從OpenAI挖人”的傳聞。2024年6月,李開復(fù)也曾在接受媒體采訪時(shí)表示,自己已經(jīng)化身世界上最大的AI獵頭招攬世界上最優(yōu)秀的人才。隨后零一萬(wàn)物便公開表態(tài),已有多位負(fù)責(zé)模型訓(xùn)練、AI Infra、多模態(tài)和產(chǎn)品的國(guó)際大咖于數(shù)月前加盟。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

人才資源的投入在模型預(yù)訓(xùn)練方面立竿見影。字節(jié)跳動(dòng)自研豆包大模型一經(jīng)發(fā)布便在業(yè)內(nèi)以高性價(jià)比聞名。零一萬(wàn)物也被傳團(tuán)隊(duì)調(diào)整,但并未影響到模型進(jìn)展——僅用了2000張GPU、1個(gè)半月時(shí)間就訓(xùn)練出了超越GPT-4o(5月份版本)的Yi-Lightning,這也是目前中國(guó)大模型公司在LMSYS榜單上的歷史最佳成績(jī)。 2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

一位資深大模型從業(yè)者告訴筆者,預(yù)訓(xùn)練人才在頂尖公司之間互相流動(dòng)是非常正常的現(xiàn)象,OpenAI、Google、微軟、Meta、xAI之間也是如此。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

“一個(gè)模型性能要做到世界第一梯隊(duì),而且又快又便宜,讓用戶都用得好用得起,需要這個(gè)大模型公司的模型訓(xùn)練團(tuán)隊(duì)、AI Infra團(tuán)隊(duì)都具備世界頂尖水準(zhǔn),而且要深度共建共創(chuàng),才能‘多快好省’地做出頂尖模型。”上述從業(yè)者說,“隨著競(jìng)爭(zhēng)壁壘越來(lái)越高,‘單靠挖一位算法負(fù)責(zé)人就能搞定一切’,這是非常不切實(shí)際的想法。”2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

在這方面,國(guó)內(nèi)頭部大模型公司也是“八仙過海、各顯神通”。阿里巴巴、字節(jié)跳動(dòng)本身具備豐富的算力資源, DeepSeek背后的幻方量化也曾豪擲千金購(gòu)置了上萬(wàn)張GPU。零一萬(wàn)物則選擇從Day 1起“模基共建”,邀請(qǐng)來(lái)自阿里、華為等大廠的高管、骨干加盟組建AI Infra核心團(tuán)隊(duì)。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

英國(guó)《金融時(shí)報(bào)》近期報(bào)道給出了一份“第一陣營(yíng)名單”,初創(chuàng)“小虎”零一萬(wàn)物、DeepSeek通過MoE模型架構(gòu)和推理優(yōu)化,大廠阿里巴巴、字節(jié)跳動(dòng)等憑借著技術(shù)、資源訓(xùn)練出了具備國(guó)際競(jìng)爭(zhēng)力的模型,阿里的Qwen、字節(jié)的Doubao、零一的Yi、DeepSeek系列模型即便在海外同樣享有極高知名度。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

從模型性能的角度來(lái)說,堅(jiān)持預(yù)訓(xùn)練不僅將模型上限掌握在了自己手中,同時(shí)也牢牢把握住了推理成本的優(yōu)化空間。只有從頭到尾走過預(yù)訓(xùn)練的路,才能夠深入了解模型架構(gòu),與AI Infra團(tuán)隊(duì)深度共建,以軟硬件協(xié)同逼近理論上的最低推理成本。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

從應(yīng)用落地的角度來(lái)講,一個(gè)關(guān)鍵點(diǎn)除了成本,還有安全性——模型是否自主可控。與接入開源模型相比,走過從0到1整個(gè)過程的自研預(yù)訓(xùn)練模型無(wú)疑是更加安全可控的。對(duì)于企業(yè)級(jí)和政府級(jí)客戶而言,這一點(diǎn)尤為關(guān)鍵,因?yàn)檫@直接關(guān)系到他們的核心利益和關(guān)切。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

換言之,無(wú)論是從基座模型的角度,還是從應(yīng)用落地的角度,預(yù)訓(xùn)練能力都是大模型企業(yè)的“壓艙石”。而對(duì)于預(yù)訓(xùn)練本身,經(jīng)過能力和資源兩道門檻的區(qū)隔之后,注定會(huì)是一場(chǎng)玩家不多的游戲。因?yàn)楦呤郑揪蛻?yīng)該不多。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

阿里巴巴、字節(jié)跳動(dòng)等大廠入局之后,大模型初創(chuàng)公司在資源方面的劣勢(shì)一覽無(wú)遺。也正因如此,能力方面的重要性得以凸顯,如何以各家技術(shù)實(shí)力追平資源差距是每家大模型初創(chuàng)公司都需要思考的問題。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

LlaMa 3.1 405B、Qwen-Max等頂尖開源模型的發(fā)布像是一次次的警鐘,催促著大模型初創(chuàng)公司盡早做出選擇。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

算法、AI Infra能力強(qiáng),能夠以各種方式降低訓(xùn)模成本和推理成本;資源整合能力強(qiáng),能夠支撐公司不斷在模型預(yù)訓(xùn)練上作出新嘗試。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

能力與資源并舉,才是大模型時(shí)代能全局掌控的“硬指標(biāo)”。中國(guó)大模型“小虎”們道路已經(jīng)出現(xiàn)分野,從預(yù)訓(xùn)練開始,技術(shù)領(lǐng)先者已經(jīng)脫穎而出。有人下牌桌、有人走新路。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

只是,掉隊(duì)后再趕上的難度,會(huì)越來(lái)越高。2te知多少教育網(wǎng)-記錄每日最新科研教育資訊


2te知多少教育網(wǎng)-記錄每日最新科研教育資訊


2te知多少教育網(wǎng)-記錄每日最新科研教育資訊

本文鏈接:http://www.albanygandhi.com/news-23-13271.html大模型預(yù)訓(xùn)練“狼人殺”,是誰(shuí)悄悄掉隊(duì)了?

聲明:本網(wǎng)頁(yè)內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。

熱門文章

延伸閱讀

相關(guān)閱讀

193項(xiàng),浙江基礎(chǔ)公益研究計(jì)劃自籌經(jīng)費(fèi)項(xiàng)目公示
浙江省科學(xué)技術(shù)廳浙江省自然科學(xué)基金委員會(huì)關(guān)于下達(dá)2024年度浙江省基礎(chǔ)公益研究計(jì)劃自籌經(jīng)費(fèi)項(xiàng)目的通知 各有關(guān)單位: 為
湖南發(fā)布省科技創(chuàng)新計(jì)劃項(xiàng)目重大事項(xiàng)變更公示
根據(jù)《湖南省科技創(chuàng)新計(jì)劃項(xiàng)目管理辦法》(湘科發(fā)〔2020〕69號(hào))和《關(guān)于進(jìn)一步規(guī)范省科技創(chuàng)新計(jì)劃項(xiàng)目變更、終止和結(jié)題工
天津市科技專家?guī)?024年第一批擬入庫(kù)專家公示

熱點(diǎn)精選

最新推薦

您可能感興趣

《人力資源服務(wù)機(jī)構(gòu)管理規(guī)定》(人社部第50號(hào)令)

關(guān)于印發(fā)建立財(cái)政資助科研項(xiàng)目形成專利的聲明制度實(shí)施方案的通知(國(guó)知發(fā)運(yùn)字〔2024〕3號(hào))

【解讀】知識(shí)產(chǎn)權(quán)制度體系不斷完善

力箭一號(hào)遙三運(yùn)載火箭成功發(fā)射

界別聯(lián)組會(huì)上委員共議 高質(zhì)量推進(jìn)北京國(guó)際科創(chuàng)中心建設(shè)

北京市林草新品種數(shù)量超過600個(gè)

科技部辦公廳 民政部辦公廳 中國(guó)科協(xié)辦公廳關(guān)于開展促進(jìn)科技類社會(huì)團(tuán)體發(fā)揮學(xué)術(shù)自律自凈作用專項(xiàng)行動(dòng)的通知

天津經(jīng)開區(qū)與公檢法部門聯(lián)合發(fā)布優(yōu)化法治化營(yíng)商環(huán)境若干措施

《北京國(guó)際科技創(chuàng)新中心建設(shè)條例》

【公告】關(guān)于實(shí)施鼓勵(lì)綠色智能消費(fèi)品以舊換新補(bǔ)貼的公告(京商消二字〔2024〕19號(hào))

疊加-教你白條秒回,一招教你轉(zhuǎn)到余額里

海納川:蘋果id貸怎么退出他的id,蘋果id貸款app

海納川:蘋果id貸利息,正規(guī)蘋果id貸款口子利息

勤學(xué)不怠:羊小咩便荔卡怎么套出來(lái),推薦六個(gè)操作方法

大吉大利:深圳坪山區(qū)代還信用卡可長(zhǎng)期幫還,高效便捷服務(wù)

大吉大利:深圳羅湖區(qū)上門代還信用卡,最便宜的地方,多年經(jīng)驗(yàn)誠(chéng)信

通報(bào):白條如何提現(xiàn)(五種方法提現(xiàn)詳解)-知者

推薦:羊小咩便荔卡怎么取現(xiàn)秒到賬 (商家告訴你最新方法)

真實(shí)的方法:DY月付怎么套出簡(jiǎn)單方法!

四季:微信分付秒到賬[分付提現(xiàn)平臺(tái)商家列表]

主站蜘蛛池模板: 亚洲精品中文字幕无码AV| 国产成人精品亚洲2020| 中文字幕av免费专区| 极品美女养成系统| 亚洲狠狠ady亚洲精品大秀| 精品女同一区二区| 国产主播在线看| 精品国产福利片在线观看| 国产自产一c区| a毛片免费全部播放完整成| 成人性生交大片免费看| 久久国产精品二国产精品| 欧美一区二区三区精品影视 | 四虎最新免费观看网址| 麻豆天美精东果冻星空| 国产精品亚洲综合五月天| 99久久伊人精品综合观看| 好男人社区www在线视频| 中文字幕乱码一区二区免费 | 女人扒开腿让男生桶爽动漫 | 爱情岛讨论坛线路亚洲高品质| 同人本里番h本子全彩本子| 进击的巨人第五季樱花免费版| 国产男靠女免费视频网站| 91av国产精品| 在线精品一区二区三区电影| 一个人晚上在线观看的免费视频| 成年人在线看片| 久久久久久夜精品精品免费啦| 日韩精品人妻系列无码专区免费| 亚洲免费观看在线视频| 欧美日韩国产综合视频在线看| 亚洲黄色第一页| 精品一区二区三区在线观看视频| 四虎影视无码永久免费| 蜜臀精品无码av在线播放| 国产在线无码视频一区二区三区| 久久精品老司机| 国产特级毛片aaaaaa| 福利视频网站导航| 国产精品午夜爆乳美女视频|