摘要: 原標題:梁文鋒專訪:偉大不能被計劃,DeepSeek創(chuàng)新靠什么? 給孩子受益終生的人文底色 中國大模型DeepSeek實在太火了 。它在所有應用商店榜單上超越了美
原標題:梁文鋒專訪:偉大不能被計劃,DeepSeek創(chuàng)新靠什么?
給孩子受益終生的人文底色
中國大模型DeepSeek實在太火了 。它在所有應用商店榜單上超越了美國的競爭對手ChatGPT,觸發(fā)科技股市高達1萬億美元的拋售,并在硅谷引發(fā)末日般的評論。
最近網(wǎng)上很多人都在往國運、國與國斗爭上引話題,但其實反過來想:一個原本名不見經(jīng)傳的“小透明”如何成長為AI世界的“鯰魚”? 創(chuàng)新何來?是因為頂層設計嗎?
一向低調(diào)的梁文鋒接受采訪說,創(chuàng)新 不是被頂層設計出來的,而是靠每個人自由生長,不斷試錯,創(chuàng)新也不是純靠資本堆出來的,首先是一個信念問題,為什么硅谷創(chuàng)新能力強?因為他們敢。
“暗涌”記者在去年7月,也就是V2模型一舉成名后不久,就曾對鮮少露面的DeepSeek創(chuàng)始人梁文鋒有過一次獨家采訪。訪談內(nèi)容,無論是對中國AI未來,還是對個人成長,都會有啟發(fā)。
報道發(fā)于英文網(wǎng)站“The China Academy”,本文為原文翻譯。
01
價格戰(zhàn)第一槍使如何打響的?
暗涌:DeepSeek V2模型發(fā)布后,迅速引發(fā)了大模型行業(yè)的激烈價格戰(zhàn)。有人認為你們是市場的顛覆者。
梁文鋒(DeepSeek創(chuàng)始人):我們從未想過要成為顛覆者,這一切只是意外發(fā)生的。
暗涌: 在此之前,大多數(shù)中國公司只是復制Llama的模型架構(gòu)來開發(fā)應用。為什么你們選擇專注于模型結(jié)構(gòu)本身?
梁文鋒:如果目標是做應用,采用Llama的架構(gòu)快速上線產(chǎn)品是合理的選擇。但我們的目標是AGI(通用人工智能),這要求我們探索新的模型架構(gòu),在有限的資源下,實現(xiàn)更強的能力。這是規(guī)?;l(fā)展的基礎性研究。除了架構(gòu),我們還深入研究了數(shù)據(jù)構(gòu)造和類人推理能力,這些都在我們的模型中有所體現(xiàn)。而且,Llama的訓練效率和推理成本相比全球最前沿的標準,估計也有兩代差距。
暗涌:這兩代的差距主要體現(xiàn)在哪里?
梁文鋒:首先是訓練效率的差距。我們估算,中國目前最好的模型,在算力相同的情況下,可能需要兩倍的計算資源才能達到全球頂尖模型的水平。這是由于架構(gòu)和訓練策略的差距。其次是數(shù)據(jù)利用效率,中國的模型大約只有全球最優(yōu)水平的一半,也就是說,同樣的結(jié)果需要兩倍的數(shù)據(jù)和計算量。兩者疊加,意味著整體資源消耗是四倍。我們的目標是不斷縮小這個差距。
暗涌:大多數(shù)中國公司都會同時布局模型和應用,為什么DeepSeek只專注于研究?
梁文鋒: 因為我們認為當下最重要的,是參與全球科技創(chuàng)新。長期以來,中國企業(yè)習慣于利用海外的技術(shù)創(chuàng)新,并通過應用層面進行商業(yè)化,但這種模式并非理所當然。 這一次,我們的目標不是快速盈利,而是推動技術(shù)前沿的發(fā)展,從根本上促進整個生態(tài)的成長。
暗涌:互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)時代的普遍共識是,美國擅長創(chuàng)新,而中國擅長應用落地。
梁文鋒:我們認為,隨著經(jīng)濟的發(fā)展,中國必須逐步從技術(shù)的受益者轉(zhuǎn)變?yōu)樨暙I者,而不是一直搭便車。在過去30年的IT革命中,我們幾乎沒有真正參與核心技術(shù)創(chuàng)新。
我們習慣了摩爾定律“從天而降”——只需躺上18個月,就能獲得更先進的硬件和軟件。同樣,我們對大模型的“規(guī)模定律”也是如此。但事實上,這些技術(shù)進步是西方科技社區(qū)幾代人持續(xù)努力的結(jié)果。由于我們長期未能深度參與這一進程,反而漸漸忽視了其真正的價值。
02
真正的差距在原創(chuàng)性,而不僅僅是時間
暗涌:為什么DeepSeek V2會讓硅谷許多人感到意外?
梁文鋒:在美國,每天都有各種創(chuàng)新出現(xiàn),從這個角度看,我們的突破并不算特別。但他們驚訝的是, 一家中國公司不僅僅是跟隨者,而是以創(chuàng)新者的身份加入了他們的競爭。這與大多數(shù)中國企業(yè)習慣的模式完全不同。
暗涌:但在中國的現(xiàn)實環(huán)境下,單純追求創(chuàng)新似乎是一種奢侈。大模型研發(fā)本身極其燒錢,不是每家公司都能在商業(yè)化之前只專注于研究。
梁文鋒:創(chuàng)新當然成本高昂,而過去我們傾向于采用現(xiàn)成技術(shù),主要是和過去的國情有關(guān)。但今天,中國的經(jīng)濟規(guī)模以及字節(jié)跳動、騰訊等巨頭的盈利能力,已經(jīng)具有全球影響力。 我們真正缺乏的不是資金,而是信心,以及組織高水平人才進行有效創(chuàng)新的能力。
暗涌:為什么即使是資金充足的中國科技巨頭,也往往更重視快速商業(yè)化?
梁文鋒:過去30年,我們更關(guān)注賺錢,而不是創(chuàng)新。但創(chuàng)新不僅僅是商業(yè)驅(qū)動的,它需要好奇心和創(chuàng)造的野心。我們被過去的習慣束縛住了,但這只是一個階段。
暗涌:但DeepSeek畢竟是一家企業(yè),而不是非營利的研究機構(gòu)。如果你們進行創(chuàng)新,并且像5月發(fā)布的MLA架構(gòu)那樣開源突破性成果,競爭對手豈不是很快就能復制?你們的護城河在哪里?
梁文鋒: 在顛覆性技術(shù)領域,閉源形成的護城河并不持久。即便是OpenAI的閉源模式,也無法阻止其他公司迎頭趕上。
因此, 我們真正的護城河在于團隊的成長— —我們的同事在這個過程中得到成長,積累很多know-how,形成可以創(chuàng)新的組織和文化。開源和發(fā)論文不會帶來重大損失。對于技術(shù)人員來說,被同行追隨本身就是一種成就。 開源不僅僅是商業(yè)策略,更是一種文化。回饋社區(qū)是一種榮譽,同時也能吸引更多優(yōu)秀人才。
▲Meta首席科學家楊楊立坤社交媒體截圖:開源模型,正在超越閉源系統(tǒng)。
暗涌:你怎么看待市場派的觀點,比如朱嘯虎的立場(他主張AI公司應優(yōu)先商業(yè)化,而不是進行基礎研究,并認為AGI是不切實際的)?
梁文鋒:朱嘯虎的邏輯適用于短期盈利項目,但美國最賺錢的公司,往往是那些依靠長期研發(fā)建立技術(shù)壁壘的科技巨頭。
暗涌:但在AI領域,單純的技術(shù)領先還不夠。DeepSeek在更長遠的層面上,究竟押注的是什么?
梁文鋒: 我們認為,中國的AI不能永遠做跟隨者。人們常說,中國AI比美國落后一到兩年,但真正的差距在于“原創(chuàng)”與“模仿”。如果不改變這一點,中國永遠只能追趕別人,而不是引領方向。有些探索是無法回避的。
英偉達的成功并不僅僅是自身努力的結(jié)果,而是西方科技生態(tài)系統(tǒng)長期合作,共同規(guī)劃下一代技術(shù)路線的成果。中國也需要類似的生態(tài)體系。 國內(nèi)許多芯片失敗,不是因為資金不足,而是因為缺乏支撐性技術(shù)社區(qū),僅依賴二手信息。必須有人走在前沿。
03
更多資金≠ 更多創(chuàng)新
暗涌:DeepSeek現(xiàn)在給人的感覺很像OpenAI早期的理想主義階段,而且你們堅持開源。未來會像OpenAI或Mistral那樣,轉(zhuǎn)向閉源嗎?
梁文鋒: 我們不會閉源。我們認為,建立一個強大的技術(shù)生態(tài),比封閉式的商業(yè)模式更重要。
暗涌:有沒有融資計劃?有媒體報道,幻方計劃將DeepSeek拆分上市。硅谷的AI初創(chuàng)公司最終難免會與大公司結(jié)盟,你們會跟隨這種趨勢嗎?
梁文鋒:短期內(nèi)沒有融資計劃。我們真正的挑戰(zhàn)從來不是資金,而是高端芯片的出口禁令。
暗涌:許多人認為,AGI的發(fā)展需要高調(diào)的合作和行業(yè)影響力,而不像量化投資那樣適合低調(diào)運作。你認同這種觀點嗎?
梁文鋒:更多的投資并不一定能帶來更多的創(chuàng)新。如果資本堆砌就能推動技術(shù)突破,那大公司早就壟斷了所有創(chuàng)新。
暗涌:DeepSeek不做應用,是因為缺乏運營基因嗎?
梁文鋒:我們認為,當前階段是技術(shù)創(chuàng)新期,而不是應用爆發(fā)期。從長遠來看,我們希望建立一個生態(tài)系統(tǒng),讓行業(yè)直接使用我們的技術(shù)和成果,其他公司基于我們的模型開發(fā)B2B/B2C服務,而我們專注于基礎研究。如果產(chǎn)業(yè)鏈完整,我們無需親自做應用。當然,如果有必要,我們完全有能力去做,但研究和創(chuàng)新始終是我們的核心優(yōu)先級。
暗涌:為什么客戶會選擇DeepSeek的API,而不是更大的玩家?
梁文鋒:未來的世界很可能是一個高度分工協(xié)作的世界?;AAI模型需要持續(xù)創(chuàng)新,而大公司也有自身的局限,并不一定最適合承擔這一角色。
暗涌:但僅憑技術(shù),真的能拉開足夠大的競爭差距嗎?你之前也提到過,并沒有絕對的“秘密”。
梁文 鋒:技術(shù)沒有秘密,但復制需要時間和成本。英偉達的GPU理論上沒有什么神秘之處,但要趕上他們,就必須重建團隊、追趕下一代技術(shù)——這才是真正的護城河。
暗涌:你們降價后,字節(jié)跳動是第一家跟進的公司,說明他們感受到了競爭壓力。你如何看待創(chuàng)業(yè)公司和大廠之間競爭的新解法?
梁文 鋒:說實話,我們并不太在意。降價只是順手而為。提供云服務并不是我們的核心目標,我們的目標是實現(xiàn)AGI。
目前沒有看到什么新解法。大公司雖然有用戶,但它們的現(xiàn)金流業(yè)務也束縛了自身,給了創(chuàng)業(yè)公司顛覆它們的機會。
暗涌:你怎么看 DeepSeek之外,中國目前的6家大模型創(chuàng)業(yè)公司的結(jié)局?
梁文 鋒:可能最終會剩下2-3家。目前大家都在“燒錢”,但能活下來的,一定是那些戰(zhàn)略清晰、執(zhí)行力強的公司。其他的可能會轉(zhuǎn)型。有價值的東西不會消失,只是會以不同的形式存在。
暗涌:你的競爭哲學是什么?
梁文 鋒: 我經(jīng)常思考的是,一項技術(shù)是否提升了社會效率,以及我們是否能在行業(yè)分工鏈中找到擅長的位置。只要終局是讓社會效率提高,就是有意義的。很多競爭都是階段性的,過于糾結(jié)于短期競爭,反而容易迷失方向。
04
V2模型:完全由本土人才打造
暗涌:OpenAI前政策主管、Anthropic聯(lián)合創(chuàng)始人Jack Clark曾提到,DeepSeek吸引了一批“難以捉摸的天才”,他們打造了DeepSeek V2。這些人有什么特點?
梁文 鋒:其實沒有什么“難以捉摸的天才”,只是來自頂尖高校的應屆生、博士生(甚至是四五年級的實習生),以及一些有幾年經(jīng)驗的年輕人。
暗涌:許多AI大廠熱衷于全球招募頂級人才,有人認為全球前50的AI科學家,很難會在中國的公司任職。你的團隊來自哪里?
梁文 鋒: DeepSeek V2團隊成員,沒有海歸,完全是由本土人才打造的。目前,全球前50的AI人才可能確實不在中國,但我們希望自己培養(yǎng)出這樣的團隊。
暗涌:MLA架構(gòu)創(chuàng)新是怎么誕生的?聽說最初是某個年輕研究員的個人興趣?
梁文 鋒:他在總結(jié)主流Attention架構(gòu)的關(guān)鍵演化規(guī)律后,突然靈感迸發(fā),設計出了一種新的替代方案。但從想法到現(xiàn)實,是一個漫長的過程。我們組建了團隊,花了幾個月時間驗證它的可行性。
暗涌:這種自發(fā)的創(chuàng)新似乎和你們扁平化的組織結(jié)構(gòu)有關(guān)。在幻方,你們避免了自上而下的管理。但AGI是一個高不確定性的前沿探索,你們會不會有更多的管理干預?
梁文 鋒:DeepSeek依然是完全自下而上的。我們也不預先設定角色,分工是自然形成的。每個人都帶著自己的經(jīng)驗和想法,不需要被推動。當他們遇到挑戰(zhàn)時,會自發(fā)地拉上別人討論。不過,一旦某個想法被證明有潛力,我們就會從上層投入資源,推動它的發(fā)展。
暗涌:我們聽說 DeepSeek 在計算資源和人員調(diào)配方面非常靈活。
梁文鋒:我們的計算資源和團隊成員的使用沒有限制。如果有人有想法,他們可以隨時調(diào)用我們的訓練集群,無需審批。此外,由于我們沒有嚴格的層級架構(gòu)或部門壁壘,只要彼此感興趣,團隊成員可以自由協(xié)作。
梁文鋒:我們的招聘標準一直基于熱愛和好奇心。我們的團隊成員背景各異,充滿個性和趣味性,他們對研究的渴望遠超對金錢的關(guān)注。
暗涌:Transformer 誕生于谷歌的AI Lab,ChatGPT 來自 OpenAI。在你看來,大公司 AI 實驗室與創(chuàng)業(yè)公司在創(chuàng)新方面有何不同?
梁文鋒:無論是 Google 研究院、OpenAI,還是國內(nèi)科技巨頭的 AI 實驗室,它們都提供了重要價值。OpenAI 之所以能最終取得突破,也有一定的歷史偶然性。
暗涌:所以你認為創(chuàng)新主要靠運氣?你們的辦公室設計中有會議室,兩側(cè)的門可以輕松打開。你的同事們提到,這種設計讓“偶然相遇”成為可能。這讓我想起 Transformer 的誕生——當時一位路過的研究員無意間聽到討論,幫助將其發(fā)展成了通用架構(gòu)。
梁文鋒:我認為, 創(chuàng)新首先是一種信念。 為什么硅谷的創(chuàng)新能力強?因為他們敢。ChatGPT 出現(xiàn)時,中國在前沿研究上信心不足。從投資人到大公司,很多人認為差距太大,轉(zhuǎn)而專注于應用。但創(chuàng)新需要信心,而年輕人往往更具信心。
▲2025年1月底以來,DeepSeek應用迅速登頂140個國家蘋果App Store免費應用榜首
暗涌:與其他 AI 公司積極尋求融資和媒體關(guān)注不同,DeepSeek 一直相對低調(diào)。你如何確保 DeepSeek 成為 AI 人才的首選?
梁文鋒:因為我們在解決最難的問題。 對于頂尖人才來說,最具吸引力的就是挑戰(zhàn)世界上最困難的問題。事實上,中國的頂尖人才經(jīng)常被低估,因為硬核創(chuàng)新稀缺,他們很少得到認可。而我們正好提供了他們渴望的舞臺。
暗涌:最近 OpenAI 的發(fā)布會上并未推出 GPT-5,許多人認為行業(yè)的技術(shù)增長曲線正在放緩,一些人開始質(zhì)疑 Scaling Law【規(guī)模法則】。你怎么看?
梁文鋒:我們?nèi)匀槐3謽酚^。行業(yè)的進展依然符合預期。OpenAI 不是神,他們不可能永遠領先。
暗涌:你認為實現(xiàn) AGI 需要多長時間?在 V2 之前,你們發(fā)布了代碼/數(shù)學模型,并從Dense架構(gòu)轉(zhuǎn)向 MoE【混合專家模型】。你們的AGI 路線圖是什么?
梁文鋒:可能是兩年,五年,或者十年——但一定會在我們這一代人有生之年發(fā)生。至于我們的路線圖,即便在公司內(nèi)部也沒有統(tǒng)一結(jié)論。但我們正在下注以下三個方向。
1.數(shù)學與代碼:它們是 AGI 的天然試驗場,就像圍棋一樣,是封閉且可驗證的系統(tǒng),自學習有可能孕育高度智能。
2.多模態(tài):讓 AI 直接接觸現(xiàn)實世界進行學習。
3.自然語言:它是類人智能的基石。
我們對一切可能性保持開放態(tài)度。
暗涌:你認為大模型的終局形態(tài)會是什么?
梁文鋒:未來會有專門提供基礎模型和服務的公司,形成一個長產(chǎn)業(yè)鏈的專業(yè)分工體系。更多公司將在這些基礎之上,為社會的多元需求提供解決方案。
05
所有套路都是上一代的產(chǎn)物
暗涌:過去一年,中國的大模型創(chuàng)業(yè)格局發(fā)生了許多變化。例如,曾經(jīng)高調(diào)入局的王慧文【美團聯(lián)合創(chuàng)始人】中途退出,而新晉選手正在逐步形成差異化。
梁文鋒:王慧文承擔了所有損失,讓其他人全身而退。他做出了對自己最不利、但對大家最有利的決定。我很敬佩他的擔當。
暗涌:你目前最關(guān)注的是什么?
梁文鋒:我最關(guān)注的是下一代大模型的研究,因為還有很多問題沒有解決。
暗涌:許多 AI 創(chuàng)業(yè)公司堅持模型研發(fā)和應用并重,因為技術(shù)領導力并非永久優(yōu)勢。為什么 DeepSeek 仍然堅定地專注于研究?是因為你們的模型還不夠強嗎?
梁文鋒: 所有套路都是上一代的產(chǎn)物,未來未必仍然適用。用互聯(lián)網(wǎng)時代的商業(yè)邏輯討論 AI 的未來盈利模式,就像把騰訊早期的發(fā)展軌跡拿來對比通用電氣或可口可樂——這就像“刻舟求劍”。
暗涌:過去幻方擁有強大的技術(shù)和創(chuàng)新基因,發(fā)展軌跡也相對順利。這是否讓你對技術(shù)驅(qū)動的創(chuàng)新更有信心?
梁文鋒:幻方在一定程度上增強了我們對技術(shù)驅(qū)動創(chuàng)新的信心,但它的成長并非一路平坦。我們經(jīng)歷了漫長的積累。人們只看到了 2015 年之后的爆發(fā),但實際上,我們已經(jīng)沉淀了 16 年。
暗涌:回到原創(chuàng)性創(chuàng)新的問題——在經(jīng)濟放緩、資本降溫的背景下,這是否會抑制顛覆性的研發(fā)?
梁文鋒:不一定。中國產(chǎn)業(yè)格局的重塑將越來越依賴深度科技創(chuàng)新。隨著快速獲利的機會減少,更多人會轉(zhuǎn)向真正的創(chuàng)新。
暗涌:所以你對此持樂觀態(tài)度?
梁文鋒:我在 1980 年代成長于廣東的一個五線城市,父親是一名小學教師。上世紀 90 年代,廣東有很多賺錢的機會,很多家長來我家爭論,說讀書沒用。但回頭看,現(xiàn)在的觀點已經(jīng)變了。賺錢不再像過去那么容易——連開出租車的機會可能都沒了。僅僅一代人的時間,環(huán)境已經(jīng)發(fā)生了巨大變化。
未來,硬核創(chuàng)新只會越來越多。現(xiàn)在大家對它的理解還不夠深,因為整個社會需要被事實教育。當社會開始認可深度科技創(chuàng)新者的成功時,集體認知自然會改變。 我們需要的,只是更多真實的成功案例,以及時間讓這一過程發(fā)生。
原標題:輟學生小吳,在不能有一個輟學生的鄉(xiāng)鎮(zhèn) 一年多前,研究中國縣域教
人物2025-01-20 15:54:36