DeepSeek的负担能力是一个神话:革命性的AI实际上花费了16亿美元
DeepSeek令人惊讶的是廉价的AI模型DeepSeek V3震撼了AI市场,导致NVIDIA的股价大幅下降。尽管DeepSeek的培训成本非常低600万美元,但仅使用2048 GPU,但近距离的外观显示出更为复杂的现实。
图像:ensigame.com
DeepSeek V3的创新架构是其性能的关键。它利用:
- 多语预测(MTP):同时预测多个单词,以提高准确性和效率。
- 专家(MOE)的混合物:使用256个神经网络,为每个令牌激活8个,加快培训并提高性能。
- 多头潜在注意力(MLA):反复专注于关键句子部分,以最大程度地减少信息丢失并捕获至关重要的细微差别。
图像:ensigame.com
然而,半分析发现了DeepSeek的大量基础设施:大约50,000个NVIDIA HOPPER GPU,包括H800,H100和H20单位,分布在多个数据中心。这代表了一笔总额约16亿美元的服务器投资,运营费用估计为9.44亿美元。这笔600万美元的数字仅反映了培训前的GPU成本,不包括研究,改进,数据处理和基础架构。
中国对冲基金High-Flyer的子公司DeepSeek拥有其数据中心,与云依赖的竞争对手不同。该所有权授予更大的控制权和更快的创新。该公司的自筹资金模型增强了敏捷性。此外,DeepSeek吸引了顶尖人才,一些研究人员每年收入超过130万美元,主要来自中国大学。
图像:ensigame.com
虽然DeepSeek声称的600万美元培训成本具有误导性,但其总投资超过5亿美元。它的精益结构允许有效的创新,与更大,更官僚的公司形成鲜明对比。
图像:ensigame.com
DeepSeek的成功凸显了资金充足的独立AI公司的竞争潜力。尽管“革命预算”索赔被夸大了,但其成就是不可否认的,尤其是考虑到竞争对手的成本要高得多(例如,DeepSeek的R1型号的成本为500万美元,而Chatgpt4的1亿美元)。该公司的成功证明了重大投资,技术突破和强大的团队。