La asequibilidad de Deepseek es un mito: la IA revolucionaria en realidad costó $ 1.6 mil millones para desarrollarse
El modelo de IA sorprendentemente económico de Deepseek, Deepseek V3, ha sacudido el mercado de IA, causando caídas significativas en el precio de las acciones de Nvidia. Si bien Deepseek cuenta con un costo de entrenamiento notablemente bajo de $ 6 millones, utilizando solo 2048 GPU, un aspecto más cercano revela una realidad más compleja.
Imagen: Ensigame.com
La arquitectura innovadora de Deepseek V3 es clave para su rendimiento. Utiliza:
- Predicción de múltiples token (MTP): Predecir múltiples palabras simultáneamente para una mayor precisión y eficiencia.
- Mezcla de expertos (MOE): Empleando 256 redes neuronales, activando ocho para cada token, acelerando la capacitación y mejorando el rendimiento.
- Atención latente de múltiples cabezas (MLA): Centrándose repetidamente en piezas clave de oraciones para minimizar la pérdida de información y capturar matices cruciales.
Imagen: Ensigame.com
Sin embargo, el semianálisis descubrió la infraestructura masiva de Deepseek: aproximadamente 50,000 GPU de tolva nvidia, incluidas las unidades H800, H100 y H20, se extienden a través de múltiples centros de datos. Esto representa una inversión de servidor total de aproximadamente $ 1.6 mil millones, con gastos operativos estimados en $ 944 millones. La cifra de $ 6 millones solo refleja los costos de GPU previos al entrenamiento, excluyendo la investigación, el refinamiento, el procesamiento de datos e infraestructura.
Deepseek, una subsidiaria de High-Flyer, un fondo de cobertura chino, posee sus centros de datos, a diferencia de los competidores que dependen de la nube. Esta propiedad otorga un mayor control e innovación más rápida. El modelo de autofinanciación de la compañía mejora la agilidad. Además, Deepseek atrae al máximo talento, y algunos investigadores ganan más de $ 1.3 millones anuales, principalmente de las universidades chinas.
Imagen: Ensigame.com
Si bien el costo de capacitación de $ 6 millones reclamado es engañoso, su inversión general supera los $ 500 millones. Su estructura magra permite una innovación eficiente, en contraste con empresas más grandes y burocráticas.
Imagen: Ensigame.com
El éxito de Deepseek destaca el potencial competitivo de las compañías de IA independientes bien financiadas. Si bien el reclamo de "presupuesto revolucionario" es exagerado, sus logros son innegables, especialmente teniendo en cuenta los costos sustancialmente más altos de los competidores (por ejemplo, el modelo R1 de Deepseek cuesta $ 5 millones versus $ 100 millones de ChatGPT4). El éxito de la compañía es un testimonio de una inversión significativa, avances técnicos y un equipo fuerte.