中文一区在线,日本天堂网在线观看,国产小视频在线看

中國AI雙子星，在硅谷教OpenAI做事？

發布時間：2025-01-24 07:50:59 64次瀏覽

國內大模型圈迎來神仙打架，OpenAI一覺醒來驚呼變了天？

1月20日，DeepSeek沒有任何預兆地發布了DeepSeek-R1模型。不到兩個小時，Kimi k1.5新模型隨即發布。模型之外，還都附帶上了詳細的技術訓練報告。

兩款推理模型，全面對標OpenAI o1，在多項基準測試中獲得了打平和超越o1的好成績。DeepSeek-R1文本推理模型出廠即開源、可商用，Kimi k1.5同時支持文本和視覺推理，同樣各項指標拉滿，成為首個實現o1完整版水平的多模態模型。

中國大模型界“雙子星”一夜間卷到海外，給了硅谷“億點點”震撼。社交平臺X上多位業界和學界大佬下場轉發、點贊DeepSeek-R1與Kimi k1.5的帖子。

英偉達AI科學家Jim Fan第一時間發帖總結兩者的相同點和差異性，評價所發表的論文是“重磅”級別。

（圖源：X）

(圖源：X)

多位AI技術大V對Kimi k1.5給予肯定，有人發表評論稱“又一個重量級模型誕生了，亮點是文本和視覺的多模態推理能力，這是多模態AI領域的重大突破”。有人將其與OpenAI o1相比較，感嘆OpenAI是否已經被拉下了神壇，“越來越多的模型正在打敗OpenAI o1”？

（圖源：X）

面對來自中國的“攻擂者”，擠牙膏式釋放期貨的OpenAI首席執行官Sam Altman在個人賬號發布帖子抱怨媒體炒作AGI，讓網友降低期待值，“下個月不會部署AGI，也不會構建AGI”。沒想到，反而激怒了網友，被諷刺“賊喊捉賊”。

AI世界正在發生一些變化，DeepSeek-R1和Kimi k1.5驗證了強化學習（RL）思路的可行性，開始挑戰OpenAI的絕對領先地位。

同時，中國本土模型挑戰不可能性，實現換道超車，也是對國內大模型行業的一次精神鼓舞。未來，中國AI企業仍有機會打破硅谷的技術壟斷，走出中國自主技術路線。

真正的滿血o1來了

繼去年11月發布的k0-math數學模型，12月發布的k1視覺思考模型之后，連續第三個月升級，Kimi帶來了K系列強化學習模型Kimi k1.5。

按照Kimi k系列思考模型路線圖，k0到kn進化是模態和領域的全面拓展。k0屬于文本態，聚焦于數學領域；k1增加了視覺態，成為了OpenAI之外首個多模態版的o1，其領域擴展至物理、化學；此次升級的k1.5仍是多模態，這也是Kimi模型突出特點之一，在領域上則由數理化升級到代碼、通用等更加常用和廣闊的領域。

從基準測試成績看，k1.5多模態思考模型實現了SOTA（state-of-the-art）級別的多模態推理和通用推理能力。

國內外宣傳達到o1水準的模型很多，但是從數據來看，目前只有Kimi和DeepSeek發布的模型才是真正滿血版的o1，其他各家發布的模型還在o1-Preview的水平——差距有30%-40%。

以OpenAI o1為基準，其數學水平得分74.4分，編程水平得分67.2分，并且支持多模態。按此標準審視國內已發布的推理模型，阿里QVQ、智譜GML、科大訊飛星火和階躍星辰Step系列模型與實際o1水平仍有一定距離。DeepSeek和Kimi模型在數學水平上均超過了OpenAI，編程水平接近o1水準。但跟DeepSeek相比，Kimi支持多模態視覺推理，而DeepSeek只能識別文字，不支持圖片識別。

具體來看，在short-CoT（短思考）模式下，Kimi k1.5超越了其他一切模型。其數學、代碼、視覺多模態和通用能力，大幅超越了全球范圍內短思考SOTA模型 GPT-4o和Claude 3.5 Sonnet的水平，領先達到550%。

在long-CoT（長思考）模式下，Kimi k1.5的數學、代碼、多模態推理能力，也達到長思考 SOTA 模型 OpenAI o1 正式版的水平。在兩個數學水平測試（AIME 2024和MATH-500）中打敗了o1，在編程水平測試（Codeforces）中與o1打平。這應該是全球范圍內，OpenAI之外的公司首次實現o1正式版的多模態推理性能。

Kimi k1.5的修煉秘籍

海內外一起打call，實力水平經得住考驗，Kimi是如何修煉成“最強大腦”的？

看完干貨滿滿的技術報告，可以總結歸納為一種訓練思路、一個訓練方案和一個訓練框架。其中，高效推理、優化思路貫穿其中。

受制于數據量的限制，預訓練“大力出奇跡”的方法在現實訓練中屢屢碰壁，從OpenAI o1起行業內開始轉變訓練范式，把更多的精力投入到強化學習上。

之前的思路可以理解為“直給”，即人類要主動去“喂”給大模型數據，監督大模型工作，介入大模型的“調教”過程。但強化學習的核心思路是，在沒有人過多干預的情況下，讓大模型自我學習和進化。

此次Kimi的新模型更新便采用了強化學習的路徑，在訓練過程中證明，無需依賴蒙特卡洛樹搜索、價值函數、過程獎勵模型，也能讓模型取得不錯的性能。

強化學習的思路集中體現在了“Long2Short”訓練方案中，這也是Kimi技術報告的亮點所在。按其官方介紹，具體的做法為，先利用較大的上下文窗口，讓模型學會長鏈式思維，再將“長模型”的推理經驗轉移到“短模型”中，兩者進行合并，最后針對“短模型”進行強化學習微調。

圖注：越靠近左上角越好

這種做法的好處在于，可以提升token的利用率以及訓練效率，在模型性能和效率中間尋找到最優解。

放到行業內來看，Kimi的“Long2Short”訓練方案也是“模型蒸餾”的體現。在這里，“長模型”是老師，而“短模型”是學生，老師傳授給學生知識，利用大模型來提升小模型的性能。當然，Kimi也采用了一些方法來提升效率，比如利用“長模型”生成的多個樣本，取最短的正解為正樣本，生成時間長的為負樣本，以此來形成對照組訓練數據集。

為了適配強化學習訓練，Kimi k1.5專門設計了特殊的強化學習框架，作為基座來支撐整個訓練系統。

k1.5模型最高支持128k的上下文本長度，如果模型每次都要完成一次完整的思維鏈生成和推理過程，對于計算資源、內存存儲和訓練穩定性都會造成影響。因此，Kimi引進了“Partial Rollouts”技術，生成的鏈路切分為多個步驟，而并非畢功與一役。

底層AI infra的搭建思路，體現了月之暗面在長文本上的積累，如何實現資源最大化和高效是其一直重點解決的問題，現在這種思路又將延續到思維鏈生成和推理上。

中國“雙子星”終結OpenAI神話？

從Kimi和DeepSeek身上，我們或許能看出未來模型訓練的幾種趨勢：對于強化學習訓練的投入和資源傾斜將加大；OpenAI o1成為了下一階段大模型入場的新門檻，技術、資源跟不上意味著掉隊；上下長文本技術尤為重要，這將作為能夠生成和推理長思維鏈的基礎；Scaling law還沒有完全失效，在一些局部，比如長上下文本依然存在并且具有潛力。

中國“雙子星”打開了OpenAI的黑箱。此前，OpenAI定義了大模型訓練的四個階段：預訓練、監督微調、獎勵建模、強化學習。現在，這個范式被打破了，Kimi 和DeepSeek都證明了可以跳過和簡化某些環節來提升模型的訓練效率和性能。

Kimi和DeepSeek效應是雙重的。走出國門，向海外AI圈特別是硅谷證明，持續的專注于聚焦就能出奇跡，中國依然具備競爭科技第一梯隊的能力。

OpenAI應該反思，在投入如此資源和擁有高人才密度的情況下，為什么被來自中國的企業在多個方面趕超，這或許將給世界的競爭格局帶來微妙的變化。人們不禁要問，OpenAI的先發優勢還能持續多久？不僅同一個國家有死對頭Anthropic，從其手中拿走了To B的單子，現在還要對來自中國的AI企業保持警惕。

在國內，新的格局似乎已經在變動之中。DeepSeek憑借開源和超越OpenAI性能的模型受到了前所未有的關注，甚至已經開始有人將其納入“AI 六小虎”的行列之中。

相較于以前，現階段的Kimi更加明確了從k0到kn的技術路線，盡管其表示“會聚焦在Kimi一個產品上”，但Kimi所承載的已經遠遠超越了一個普通的AI應用。

Kimi k1.5讓月之暗面拿下了下一階段的入場券，這也讓其在未來競爭中掌握更多的主動權。保持一定的領先之后，2025年新的目標是如何活得更好。

新一輪洗牌悄悄開始，誰會先掉隊，誰又能先突出重圍？

點擊展開全文

本文鏈接：http://www.albanygandhi.com/news-23-193928.html中國AI雙子星，在硅谷教OpenAI做事？

聲明：本網頁內容由互聯網博主自發貢獻，不代表本站觀點，本站不承擔任何法律責任。天上不會到餡餅，請大家謹防詐騙！若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。

上一篇：馬斯克：奧特曼就是個騙子！“他們根本沒錢”搞星際之門！

下一篇：俞敏洪不在意虧1億