A acessibilidade do Deepseek é um mito: a IA revolucionária realmente custou US $ 1,6 bilhão para se desenvolver
O modelo de IA surpreendentemente barato de Deepseek, Deepseek V3, abalou o mercado de IA, causando quedas significativas no preço das ações da NVIDIA. Enquanto o Deepseek possui um custo de treinamento notavelmente baixo de US $ 6 milhões, usando apenas 2048 GPUs, um visual mais próximo revela uma realidade mais complexa.
imagem: ensigame.com
A arquitetura inovadora da DeepSeek V3 é a chave para seu desempenho. Utiliza:
- Previsão com vários toques (MTP): Prevendo várias palavras simultaneamente para aumentar a precisão e a eficiência.
- Mistura de especialistas (MOE): Empregando 256 redes neurais, ativando oito para cada token, acelerando o treinamento e melhorando o desempenho.
- ATENÇÃO LATENTE DE MULTI-CABEÇA (MLA): Foco repetidamente nas principais peças da frase para minimizar a perda de informações e capturar nuances cruciais.
imagem: ensigame.com
No entanto, a semiânica descobriu a enorme infraestrutura de Deepseek: aproximadamente 50.000 GPUs NVIDIA Hopper, incluindo unidades H800, H100 e H20, espalhadas por vários data centers. Isso representa um investimento total do servidor de aproximadamente US $ 1,6 bilhão, com despesas operacionais estimadas em US $ 944 milhões. O número de US $ 6 milhões reflete apenas os custos de GPU pré-treinamento, excluindo pesquisas, refinamento, processamento de dados e infraestrutura.
A Deepseek, uma subsidiária da High-Flyer, um fundo de hedge chinês, possui seus data centers, diferentemente dos concorrentes dependentes da nuvem. Essa propriedade concede maior controle e inovação mais rápida. O modelo de autofinanciamento da empresa aumenta a agilidade. Além disso, a Deepseek atrai os melhores talentos, com alguns pesquisadores ganhando mais de US $ 1,3 milhão anualmente, principalmente das universidades chinesas.
imagem: ensigame.com
Enquanto a Deepseek alegou que o custo de treinamento de US $ 6 milhões é enganoso, seu investimento geral excede US $ 500 milhões. Sua estrutura enxuta permite inovação eficiente, contrastando com empresas maiores e mais burocráticas.
imagem: ensigame.com
O sucesso da Deepseek destaca o potencial competitivo de empresas independentes de IA independentes. Embora a reivindicação do "orçamento revolucionário" seja exagerada, suas realizações são inegáveis, especialmente considerando os custos substancialmente mais altos dos concorrentes (por exemplo, o modelo R1 da Deepseek custou US $ 5 milhões em relação aos US $ 100 milhões do ChatGPT4). O sucesso da empresa é uma prova de investimentos significativos, avanços técnicos e uma equipe forte.