DeepSeek的負擔能力是一個神話:革命性的AI實際上花費了16億美元

作者 : Benjamin Feb 20,2025

DeepSeek令人驚訝的是廉價的AI模型DeepSeek V3震撼了AI市場,導致NVIDIA的股價大幅下降。盡管DeepSeek的培訓成本非常低600萬美元,但僅使用2048 GPU,但近距離的外觀顯示出更為複雜的現實。

DeepSeek Test圖像:ensigame.com

DeepSeek V3的創新架構是其性能的關鍵。它利用:

  • 多語預測(MTP):同時預測多個單詞,以提高準確性和效率。
  • 專家(MOE)的混合物:使用256個神經網絡,為每個令牌激活8個,加快培訓並提高性能。
  • 多頭潛在注意力(MLA):反複專注於關鍵句子部分,以最大程度地減少信息丟失並捕獲至關重要的細微差別。

DeepSeek V3圖像:ensigame.com

然而,半分析發現了DeepSeek的大量基礎設施:大約50,000個NVIDIA HOPPER GPU,包括H800,H100和H20單位,分布在多個數據中心。這代表了一筆總額約16億美元的服務器投資,運營費用估計為9.44億美元。這筆600萬美元的數字僅反映了培訓前的GPU成本,不包括研究,改進,數據處理和基礎架構。

中國對衝基金High-Flyer的子公司DeepSeek擁有其數據中心,與雲依賴的競爭對手不同。該所有權授予更大的控製權和更快的創新。該公司的自籌資金模型增強了敏捷性。此外,DeepSeek吸引了頂尖人才,一些研究人員每年收入超過130萬美元,主要來自中國大學。

DeepSeek圖像:ensigame.com

雖然DeepSeek聲稱的600萬美元培訓成本具有誤導性,但其總投資超過5億美元。它的精益結構允許有效的創新,與更大,更官僚的公司形成鮮明對比。

DeepSeek圖像:ensigame.com

DeepSeek的成功凸顯了資金充足的獨立AI公司的競爭潛力。盡管“革命預算”索賠被誇大了,但其成就是不可否認的,尤其是考慮到競爭對手的成本要高得多(例如,DeepSeek的R1型號的成本為500萬美元,而Chatgpt4的1億美元)。該公司的成功證明了重大投資,技術突破和強大的團隊。