發(fā)布不到1周,OpenAI強模型o1的護城河已經(jīng)沒有了。
有人發(fā)現(xiàn),谷歌DeepMind一篇發(fā)表在8月的論文,揭示原理和o1的工作方式幾乎一致。
o1突發(fā)內(nèi)幕曝光?谷歌更早揭示原理,大模型光有軟件不存在護城河
這項研究表明,增加測試時(test-time)計算比擴展模型參數(shù)更有效。
基于論文提出的計算優(yōu)(compute-optimal)測試時計算擴展策略,規(guī)模較小的基礎(chǔ)模型在一些任務(wù)上可以超越一個14倍大的模型。
網(wǎng)友表示:
這幾乎就是o1的原理啊。
眾所周知,奧特曼喜歡領(lǐng)先于谷歌,所以這才是o1搶先發(fā)preview版的原因?
o1突發(fā)內(nèi)幕曝光?谷歌更早揭示原理,大模型光有軟件不存在護城河
有人由此感慨:
確實正如谷歌自己所說的,沒有人護城河,也永遠不會有人有護城河。
o1突發(fā)內(nèi)幕曝光?谷歌更早揭示原理,大模型光有軟件不存在護城河
就在剛剛,OpenAI將o1-mini的速度提高7倍,每天都能使用50條;o1-preview則提到每周50條。
o1突發(fā)內(nèi)幕曝光?谷歌更早揭示原理,大模型光有軟件不存在護城河
計算量節(jié)省4倍
谷歌DeepMind這篇論文的題目是:優(yōu)化LLM測試時計算比擴大模型參數(shù)規(guī)模更高效。
研究團隊從人類的思考模式延伸,既然人面對復(fù)雜問題時會用更長時間思考改善決策,那么LLM是不是也能如此?
換言之,面對一個復(fù)雜任務(wù)時,是否能讓LLM更有效利用測試時的額外計算以提高準確性。
此前一些研究已經(jīng)論證,這個方向確實可行,不過效果比較有限。
因此該研究想要探明,在使用比較少的額外推理計算時,就能能讓模型性能提升多少?
他們設(shè)計了一組實驗,使用PaLM2-S*在MATH數(shù)據(jù)集上測試。
主要分析了兩種方法:
(1)迭代自我修訂:讓模型多次嘗試回答一個問題,在每次嘗試后進行修訂以得到更好的回答。
(2)搜索:在這種方法中,模型生成多個候選答案。
o1突發(fā)內(nèi)幕曝光?谷歌更早揭示原理,大模型光有軟件不存在護城河
可以看到,使用自我修訂方法時,隨著測試時計算量增加,標準佳N策略(Best-of-N)與計算優(yōu)擴展策略之間的差距逐漸擴大。
使用搜索方法,計算優(yōu)擴展策略在初期表現(xiàn)出比較明顯優(yōu)勢。并在一定情況下,達到與佳N策略相同效果,計算量僅為其1/4。
在與預(yù)訓(xùn)練計算相當(dāng)?shù)腇LOPs匹配評估中,對比PaLM 2-S*(使用計算優(yōu)策略)一個14倍大的預(yù)訓(xùn)練模型(不進行額外推理)。
結(jié)果發(fā)現(xiàn),使用自我修訂方法時,當(dāng)推理tokns遠小于預(yù)訓(xùn)練tokens時,使用測試時計算策略的效果比預(yù)訓(xùn)練效果更好。但是當(dāng)比率增加,或者在更難的問題上,還是預(yù)訓(xùn)練的效果更好。
也就是說,在兩種情況下,根據(jù)不同測試時計算擴展方法是否有效,關(guān)鍵在于提示的難度。
研究還進一步比較不同的PRM搜索方法,結(jié)果顯示前向搜索(右)需要更多的計算量。
o1突發(fā)內(nèi)幕曝光?谷歌更早揭示原理,大模型光有軟件不存在護城河
在計算量較少的情況下,使用計算優(yōu)策略多可節(jié)省4倍資源。
o1突發(fā)內(nèi)幕曝光?谷歌更早揭示原理,大模型光有軟件不存在護城河
對比OpenAI的o1模型,這篇研究幾乎是給出了相同的結(jié)論。
o1模型學(xué)會完善自己的思維過程,嘗試不同的策略,并認識到自己的錯誤。并且隨著更多的強化學(xué)習(xí)(訓(xùn)練時計算)和更多的思考時間(測試時計算),o1 的性能持續(xù)提高。
不過OpenAI更快一步發(fā)布了模型,而谷歌這邊使用了PaLM2,在Gemini2上還沒有更新的發(fā)布。
網(wǎng)友:護城河只剩下硬件了?
這樣的新發(fā)現(xiàn)不免讓人想到去年谷歌內(nèi)部文件里提出的觀點:
我們沒有護城河,OpenAI也沒有。開源模型可以打敗ChatGPT。
如今來看,各家研究速度都很快,誰也不能確保自己始終領(lǐng)先。
唯一的護城河,或許是硬件。
o1突發(fā)內(nèi)幕曝光?谷歌更早揭示原理,大模型光有軟件不存在護城河
(所以馬斯克哐哐建算力中心?)
有人表示,現(xiàn)在英偉達直接掌控誰能擁有更多算力。那么如果谷歌/微軟開發(fā)出了效果更好的定制芯片,情況又會如何呢?
o1突發(fā)內(nèi)幕曝光?谷歌更早揭示原理,大模型光有軟件不存在護城河
值得一提的是,前段時間OpenAI首顆芯片曝光,將采用臺積電先進的A16埃米級工藝,專為Sora視頻應(yīng)用打造。
顯然,大模型戰(zhàn)場,只是卷模型本身已經(jīng)不夠了。
參考鏈接:
https://www.reddit.com/r/singularity/comments/1fhx8ny/deepmind_understands_strawberry_there_is_no_moat/
本文鏈接:http://morphism.cn/news42055.htmlo1突發(fā)內(nèi)幕曝光?谷歌更早揭示原理 大模型光有軟件不存在護城河