El mundo de la inteligencia artificial está en constante evolución, y en la última semana hemos sido testigos de un nuevo hito que ha sacudido los cimientos de Silicon Valley. La startup DeepSeek ha declarado que ha creado un modelo de IA, el DeepSeek-R1, gastando solo 5,6 millones de dólares en su entrenamiento. ¿Suena demasiado bueno para ser cierto? Acompáñame en este recorrido lleno de cifras sorprendentes, dudas legítimas y un toque de humor, mientras desentrañamos el misterio detrás de este asombroso anuncio.

Una cifra asombrosamente baja: ¿sorpresa o engaño?

Cuando escuché por primera vez la cifra de 5,6 millones de dólares, no pude evitar recordar esa época en la que pensaba que me podía comprar una casa en el centro de la ciudad con unos pocos miles de euros. La realidad pronto me golpeó en la cara como una ola de verano. Así que, al ver que DeepSeek afirmaba haber entrenado su modelo por esa cantidad, me pregunté: ¿realmente nos creemos esto?

Sam Altman, CEO de OpenAI, no se ha quedado indiferente ante esta afirmación y ha dejado claro que no cree que sea una cifra realista. Después de todo, su propia empresa invirtió aproximadamente 100 millones de dólares en el entrenamiento de GPT-4. ¡Vaya diferencia!

Hoy en día, los modelos de IA son como esos juguetes de temporada que todos queremos pero que se nos escapan de las manos por su precio. A menudo, los costos de entrenamiento son opacos, y surgen muchas preguntas: ¿Incluyen todos los gastos? ¿Qué pasa con la infraestructura? ¿Y los salarios de los investigadores? Aquí es donde la cosa se pone interesante.

¿Qué hay detrás de esos 5,6 millones?

Como bien reseñó el analista Ben Thompson, DeepSeek desglosa su coste, pero advierte que esa cifra no incluye costes asociados a investigaciones previas y experimentos. Es como cuando compras un coche usado y te dicen que ha tenido «solo un propietario anterior», pero se olvidan de mencionar que ese propietario conducía como si estuviera en una carrera de F1.

Dylan Patel, otro analista que ha participado en esta conversación, también pone en duda la transparencia de esos números. Según sus estimaciones, DeepSeek ha gastado claramente más de 500 millones de dólares en GPUs en su historia. La clave aquí sería entender cuántos gastos ocultos hay detrás de ese asombroso anuncio, lo que nos lleva a una pregunta fundamental: ¿es posible que este modelo haya sido posible gracias a una optimización brutal, o hay algo más que nos están ocultando?

Comparaciones evidentes: ¿deepseek-R1 frente a Llama 3?

Para aquellos que aún están intentando digerir la cifra de 5,6 millones de dólares, lo mejor es ponerlo en perspectiva. Un investigador llamado Praneet Rathi ha comparado el coste del entrenamiento de DeepSeek V3 con el de Llama 3 de Meta. Según sus cálculos, Llama 3 con 405B de parámetros requirió 30 millones de horas de GPU mientras que DeepSeek dice que solo necesitó 2,8 millones. ¡Ouch! El contraste es impresionante.

Es como comparar un coche de carreras con un carrito de la compra. A no ser que realmente estés comprando ese carrito de la compra a un precio de liquidación. Pero, ¿es realmente posible reducir esos costos a tal punto? Con la creciente eficiencia en los procesos y la disponibilidad de infraestructura avanzada, la respuesta parece ser un rotundo .

La verdad sobre la eficiencia del entrenamiento

A medida que pasan los años, entrenar modelos de IA se ha vuelto más barato. Recientemente, un análisis indicaba que el costo del entrenamiento de GPT-4 a principios de 2023 era de 63 millones de dólares. Pero para el tercer trimestre de 2023, esa cifra había bajado a 20 millones de dólares. Está claro que la tendencia de costos se va a la baja, pero parece que DeepSeek se ha adelantado a la competencia como si estuviera usando un DeLorean.

Pero, antes de lanzar las campanas al vuelo, es importante considerar otros factores. La calidad de los datos, la arquitectura del modelo y los hiperparámetros son variables que pueden influir en el costo final.

La «maldición» de la financiación abierta

Si bien el DeepSeek-R1 es un modelo de código abierto, esto plantea otra pregunta: además de la cifra, ¿podría haber algo más que lo haga tan atractivo? Así comienza un nuevo desafío para muchas startups: no solo se trata de recaudar fondos, sino de hacerlo de manera eficiente para poder competir en un mercado cada vez más saturado.

¡Hablemos de la importancia de la transparencia! En privado, todos queremos un modelo perfecto que utilice solo 5,6 millones de dólares. Pero en la vida real, las historias de épicas odiseas de financiación siempre son más complejas y matizadas.

Impacto en la industria y el futuro del aprendizaje automático

Lo que ha pasado esta semana no es solo un desafío financiero; representa un marco de referencia para el futuro del aprendizaje automático. Con la fuerza de DeepSeek en el juego, otros gigantes como NVIDIA han visto un desplome en su valoración de 400,000 millones de dólares. ¿Podrían los modelos de IA más accesibles cambiar el panorama del sector?

En lugar de preguntarnos por qué alguien podría lograr eso, deberíamos preguntarnos cómo podrían aquellos con la intención de aprender y desarrollar a partir de estos modelos hacerlo con un presupuesto más limitado. Como si fuera el Black Friday, pero de las IA.

La inversión en educación y desarrollo

La pregunta más grande es: ¿podemos replicar el éxito de DeepSeek-R1 sin perder la calidad? Sin duda, la respuesta para los entusiastas de la IA no es sencilla. La comunidad Open Source está observando de cerca, mientras nace el proyecto Open-R1 con la intención de desentrañar los secretos detrás del éxito de DeepSeek. Es un viaje intrigante que nos lleva a explorar no solo la ciencia detrás de la IA, sino también las economías emergentes alrededor de estas innovaciones.

La posibilidad de que otros desarrollen modelos similares es emocionante. Como cualquiera que haya intentado hacer pan en casa, sabes que no siempre sale como los profesionales, pero aprendemos en el proceso, ¿verdad?

Reflexiones finales: posibilidad y prudencia

DeepSeek ha puesto en el centro de la conversación una pregunta que será fundamental en los próximos años: ¿la IA puede volverse más económica, eficiente y accesible para todos?

Soy escéptico por naturaleza, quizás por mis años de experimentar la compra de entradas para un concierto, que siempre parecen ser más baratas en la primera fase. Pero también soy un ferviente defensor de la transparencia en los costos y la necesidad de un enfoque más colaborativo entre startups e investigadores.

En resumen, el mar de la IA está lleno de cambios, olas y, a veces, tormentas. Si bien DeepSeek ha dado un golpe sobre la mesa, el verdadero desafío está en la comprensión y el desarrollo de modelos que sean sustentables, económicos, y, sobre todo, honestos con los costos y procesos involucrados.

Así que, querido lector, la próxima vez que veas una noticia que hable de cifras estratosféricas en el campo de la IA, recuerda: a veces, lo más barato puede salirnos más caro. ¿Y tú, qué opinas sobre el futuro de la IA y la transparencia en el costo? ¡Me encantaría escuchar tu opinión en los comentarios!