▲堅持長期視角,專注底層創(chuàng)新,探索新的路徑。圖/DeepSeek界面截圖
一家此前不在多數(shù)媒體的“明星企業(yè)”列表中的“小企業(yè)”,一家走開源路線而非走閉源或率先開發(fā)應用的“創(chuàng)新組織”,卻意外在2025年開年成為了中國大模型領域科技創(chuàng)新的全球代表。
據(jù)多家媒體報道,這家名為DeepSeek(深度求索)的中國大模型企業(yè),最近發(fā)布的大模型,在多項性能測試中已經達到了OpenAI的最新大模型o1水平,部分項目還實現(xiàn)了超越。由此引發(fā)了全球科技行業(yè)的熱烈討論,有媒體形容“DeepSeek朝硅谷‘開了一槍’”,甚至“震動美國科技界”。
底層創(chuàng)新提升算力效率
DeepSeek當前所創(chuàng)造的“神話”,主要是兩類敘事。第一類,是DeepSeek的算力成本投入與表現(xiàn)出來的性能對比,超出了行業(yè)的一般認知。據(jù)部分行業(yè)媒體報道,DeepSeek r1的訓練成本僅為ChatGPT o1的零頭。第二類神話則是,DeepSeek的成功證明了開源路線的逆襲勝利,對大公司、巨頭的閉源路線進行了一次底層顛覆。
這兩類看法被灌注到社交平臺上進行廣泛討論后,事實上都或多或少因人們的真誠期待而略有扭曲。例如,DeepSeek r1的真實算力成本投入遠不止600萬美元,且最早報道的媒體混淆了DeepSeek在論文中提及的訓練成本。根據(jù)原文,550萬美元是DeepSeek v3在正式訓練階段的成本,不包括前期研究、實驗的成本。
并且,從行業(yè)發(fā)展的邏輯看,探索與迭代、追趕所需的算力成本,也不應該放在一起對比。OpenAI在ChatGPT o1的研發(fā)探索,與v3在前序產品基礎上的迭代,成本無法簡單對比。創(chuàng)新和探索必然伴隨著算力和各項成本的浪費,在確定性的路徑上優(yōu)化所付出的代價,與探索未知所付出的代價,互相之間不宜簡單對比。
而從大模型現(xiàn)階段的發(fā)展看,準確地說,一家企業(yè)的階段性產品的成功,還不能定義為閉源與開源路線的成敗。
綜合以上,比較嚴謹?shù)乜创鼶eepSeek帶給我們的驚喜,應該是:DeepSeek展示了模型架構底層創(chuàng)新的價值,不斷提升了算力效率。并且,這一家架構的底層創(chuàng)新,推動了開源大模型產品在能力上的超越,從而將進一步提升行業(yè)整體的應用研發(fā)水平。
更重要的仍是“創(chuàng)新”本身
盡管比起人們熱愛的傳奇故事,上面的這個故事顯得有些過于審慎無聊。但事實上,這樣一個嚴謹?shù)墓适?,更值得我們去探討本文開篇的兩句話:為什么是一家資金量不占優(yōu)勢的、專注于底層創(chuàng)新而非商業(yè)化的開源企業(yè),創(chuàng)造了中國企業(yè)在大模型領域的一次“彎道超車”?
2024年8月,在接受媒體專訪時,DeepSeek創(chuàng)始人梁文鋒提及了團隊的研發(fā)思路,“如果目標是做應用,那沿用LLaMA模型(LLaMA,是元宇宙平臺公司,即Meta公開發(fā)布的產品)短平快上產品也是合理的,但我們的目的地是AGI(通用人工智能),這意味著我們需要研究新的模型結構,在有限資源下,實現(xiàn)更強的模型能力”。
這句話揭示了“奇跡”誕生的出發(fā)點:因為目標不同,所以方法不同,面對差距的態(tài)度也不同。
就在DeepSeek創(chuàng)造“行業(yè)奇跡”不久前,國內大模型行業(yè)的共識幾乎仍然是“要做應用”,因為做通用大模型的機會已經沒有了。一些明星創(chuàng)業(yè)企業(yè)更是放棄了對通用AGI的探索,轉而借助現(xiàn)有的模型去研發(fā)應用。
在這種行業(yè)共識之下,我們所接觸到的多數(shù)國產大模型企業(yè),津津樂道的多數(shù)都是具體且仍不成熟的應用。如,多如牛毛的陪伴型AI聊天機器人,或是文生圖、文生視頻等“奇觀展示”。
這并非刻意貶低應用層的研發(fā)努力,面對差距做策略性的舍棄,是正常的科技與商業(yè)選擇。就連梁文鋒自己也在訪談中承認,在模型結構和訓練動力學上,國內的最高水平比起國外最高水平可能有一倍的差距,與此同時,數(shù)據(jù)效率上國內比起海外可能也有一倍的差距,兩者相加,相當于國內要用四倍的算力才能取得同樣的效果。
再加上復雜宏觀環(huán)境下算力本身的成本差距。在這種現(xiàn)實下,多數(shù)企業(yè)選擇了繞開這些差距,確實是一個直覺上可以理解的選項。
但DeepSeek選擇的方向卻顯得反直覺和常識。既然資源差距大,那就干脆回到模型架構底層去創(chuàng)新和優(yōu)化。而事實證明,這條路最終反而能更快地達成目標。
事實上,AGI的長期發(fā)展固然與算力成本息息相關,但AGI本身仍然處在不斷迭代的過程之中。在科技創(chuàng)新之中,決定長期結果的固然是宏觀環(huán)境、經濟投入等底層基礎,但在動態(tài)的創(chuàng)新發(fā)生過程中,更重要的或許仍舊是“創(chuàng)新”本身。
大模型已經火熱許久,但時至今日,仍然不是簡單的資源加總游戲,不是簡單地囤更多算力就能快速實現(xiàn)突破,也不是誰更早擁有更多用戶,有更多商業(yè)化的場景和賺錢的能力,就能笑到最后。而這正是那些曾經風光無二但卻迅速退潮的企業(yè)所沒有想明白的基礎邏輯。
從這個更嚴謹?shù)男袠I(yè)發(fā)展故事來看,DeepSeek的最大啟發(fā),是我們仍舊處在充滿不確定性的創(chuàng)新探索周期里。而短視,恰恰是創(chuàng)新的最大敵人。堅持長期視角,專注底層創(chuàng)新,探索新的路徑,比起融資、囤卡和商業(yè)化,更有可能獲得最終的勝利。
撰稿 / 王曉凱(媒體人)
編輯 / 遲道華 馬小龍
校對 / 趙琳
本文鏈接:http://m.enbeike.cn/news-4-1125-0.htmlDeepSeek何以創(chuàng)造了“行業(yè)奇跡” | 新京報專欄
聲明:本網頁內容由互聯(lián)網博主自發(fā)貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯(lián)系,我們將在第一時間刪除處理。
點擊右上角微信好友
朋友圈
點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“
”按鈕
點擊右上角QQ
點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“
”按鈕