Ai大模型瘋狂卷出五個關鍵趨勢
發(fā)布日期: 2024年12月31日 shopxx
如果對比去年同期,你會發(fā)現(xiàn)今年12月是大模型行業(yè)的一個熱鬧峰值。
從11月中旬開始,OpenAI、微軟、谷歌、字節(jié)跳動、百度和智譜等科技公司都召開了與大模型相關的發(fā)布會,推出了一系列新模型、新應用和新產(chǎn)品,其中OpenAI的12天連續(xù)直播更是開啟了科技公司發(fā)布會的新流行。
熱鬧之下,比起去年技術層和競爭層的種種不確定性,當下模型廠商們的心態(tài)和預期好很多。一方面,在技術側(cè),一場推理AI競賽已經(jīng)開打;另一方面,應用層包括AI Agent、搜索等方向也已經(jīng)明確。
隨著OpenAI相繼發(fā)布o1和o3模型,一場推理競賽正在模型廠商間展開。
據(jù)OpenAI發(fā)布的o3系列時給出的評測數(shù)據(jù),在數(shù)學、編碼、博士級科學問題等復雜問題上的表現(xiàn),o3均展現(xiàn)出了強大的實力,例如在陶哲軒等60余位全球數(shù)學家共同推出的最強數(shù)學基準的EpochAI Frontier Math中,o3 創(chuàng)下新紀錄,準確率高達25.2%,而其他模型都沒有超過2.0%。
而在OpenAI沒放出o3前,國內(nèi)外科技公司的目標無疑是追趕o1,谷歌此前發(fā)布全新測試模型Gemini 2.0 Flash Thinking。
今年11月,月之暗面Kimi的新一代數(shù)學推理模型k0-math、DeepSeek的推理模型DeepSeek-R1-Lite預覽版、阿里云通義的QwQ-32B-Preview也相繼發(fā)布,在一些數(shù)學和編碼評估表現(xiàn)中,它們的分數(shù)比o1還要高。
目前尚不清楚o3是否會為普通用戶帶來很大幫助,從模型能力來看更適合推編碼、數(shù)學和科學領域的研究人員,除此以外,推理模型也很昂貴。在Keras之父François Chollet發(fā)起的ARC-AGI基準測試顯示,盡管o3在高計算模式下得分率為 87.5%,但研究人員在該模式下每個任務花費達到數(shù)美元,任務成本很高。
但成本也只是一個相對的概念。近期,清華NLP實驗室劉知遠教授團隊提出了大模型的密度定律(densing law),該定律表明,大約每過3.3個月(100天),就能用參數(shù)量減半的模型達到當前最先進模型的性能水平,這意味未來推理成本還會快速降低。
但至少從技術端來看,至少OpenAI再度驗證了Scaling Law沒有消失,只不過是從預訓練端轉(zhuǎn)向了推理端,通過強化學習和更多的思考時間,提升模型的復雜推理能力,這條路是可行的。
對國內(nèi)外基礎模型廠商而言,它們需要追趕的新目標又出現(xiàn)了。
本文鏈接: http://www.520frw.com/news/detail/6773447f9194be00018dc59c