Las existencias tecnológicas cayeron. Empresas gigantes como Meta y Nvidia enfrentaron un aluvión de preguntas sobre su futuro. Los ejecutivos de tecnología recurrieron a las redes sociales para proclamar sus miedos.
Y todo se debió a una nueva empresa de inteligencia artificial china poco conocida llamada Deepseek.
Deepseek causó olas en todo el mundo el lunes como uno de sus logros, que había creado un modelo de IA muy poderoso con mucho menos dinero de lo que muchos expertos en IA creían posible, planteó una serie de preguntas, incluidas si las empresas estadounidenses eran incluso competitivas en IA. ya no.
Deepseek es el “momento Sputnik de AI”, Marc Andreessen, un capitalista de riesgo tecnológico, publicó en las redes sociales el domingo.
¿Cómo podría una empresa de la que pocas personas habían oído hablar tener tal efecto?
¿Qué es Deepseek?
Deepseek es una nueva empresa fundada y propiedad de la firma de comercio de acciones chinas High-Flyer. Su objetivo es construir tecnologías de inteligencia artificial en la línea del chatgpt chatbot de OpenAi o gemini de Google. Para 2021, Deepseek había adquirido miles de chips de computadora del fabricante de chips de EE. UU. Nvidia, que son una parte fundamental de cualquier esfuerzo para crear potentes sistemas de IA
En China, la nueva empresa es conocida por atrapar a investigadores de IA jóvenes y talentosos de las mejores universidades, prometiendo salarios altos y una oportunidad para trabajar en proyectos de investigación de vanguardia. Tanto High-Flyer como Deepseek están dirigidos por Liang Wenfeng, un empresario chino.
En los últimos años, Deepseek ha lanzado varios modelos de idiomas grandes, que es el tipo de tecnología que sustenta chatbots como ChatGPT y Gemini. El 10 de enero, lanzó su primera aplicación de chatbot gratuita, que se basó en un nuevo modelo llamado Deepseek-V3.
¿Por qué reaccionó el mercado de valores ahora?
Cuando Deepseek presentó su modelo Deepseek-V3 el día después de Navidad, coincidió con las habilidades de los mejores chatbots de compañías estadounidenses como OpenAi y Google. Eso solo habría sido impresionante.
Pero el equipo detrás del nuevo sistema también reveló un paso más grande. En un artículo de investigación que explica cómo construyó la tecnología, Deepseek dijo que usó solo una fracción de los chips de computadora en los que las compañías de IA líderes confiaron para capacitar sus sistemas.
Las principales compañías del mundo generalmente entrenan a sus chatbots con supercomputadoras que usan hasta 16,000 chips o más. Los ingenieros de Deepseek dijeron que solo necesitaban alrededor de 2,000 chips Nvidia.
¿Por qué es eso importante?
Desde finales de 2022, cuando OpenAi desencadenó el auge de la IA, la noción predominante había sido que los sistemas de IA más poderosos no podían construirse sin invertir miles de millones de dólares en chips de IA especializados. Eso significaría que solo las compañías tecnológicas más grandes, como Microsoft, Google y Meta, todas las cuales tienen su sede en los Estados Unidos, podrían permitirse construir las principales tecnologías.
(El New York Times ha demandado a OpenAi y a su socio, Microsoft, reclamando la infracción de derechos de autor del contenido de noticias relacionados con los sistemas de IA. Las dos compañías tecnológicas han negado las afirmaciones de la demanda).
Pero los ingenieros de Deepseek dijeron que solo necesitaban alrededor de $ 6 millones en energía informática sin procesar para capacitar su nuevo sistema. Eso fue aproximadamente 10 veces menos que lo que Meta gastó construyendo su última tecnología de IA.
¿Cómo hizo Deepseek su tecnología con menos chips de IA?
Los mejores ingenieros de IA en los Estados Unidos dicen que el trabajo de investigación de Deepseek estableció formas inteligentes e impresionantes de construir tecnología de IA con menos chips.
En resumen, los ingenieros de la startup demostraron una forma más eficiente de analizar datos utilizando los chips. Los sistemas de IA líderes aprenden sus habilidades identificando patrones en grandes cantidades de datos, incluidos texto, imágenes y sonidos. Deepseek describió una forma de difundir este análisis de datos en varios modelos de IA especializados, lo que los investigadores llaman un método de “mezcla de expertos”, al tiempo que minimiza el tiempo perdido al mover los datos de un lugar a otro.
Otros han utilizado métodos similares antes, pero la información de mudanza entre los modelos tendió a reducir la eficiencia. Deepseek hizo esto de una manera que le permitiera usar menos potencia informática.
“Ha quedado muy claro que otras compañías, no solo alguien como OpenAi, pueden construir este tipo de sistemas”, dijo Tim Dettmers, investigador del Instituto Allen de Inteligencia Artificial en Seattle y profesor de informática en la Universidad Carnegie Mellon Who Who Se especializa en construir sistemas de IA eficientes. “Deepseek usó métodos que cualquiera puede duplicar”.
El trabajo de investigación de Deepseek planteó preguntas sobre si las grandes empresas estadounidenses podrían mantener una ventaja significativa en la IA, muchos expertos creen que la tecnología de IA se convertirá en una mercancía, y muchas compañías venden el mismo producto.
¿Es la tecnología de Deepseek tan buena como los sistemas de Openai y Google?
Deepseek-v3 puede responder preguntas, resolver problemas lógicos y escribir sus propios programas de computadora de manera tan efectiva como cualquier cosa que ya esté en el mercado, según las pruebas de referencia estándar.
Justo antes de que Deepseek lanzara su tecnología, Operai había presentado un nuevo sistema, llamado OpenAi O3, que parecía más poderoso que Deepseek-V3. Pero Openai no ha lanzado este sistema al público más amplio.
Operai O3 fue diseñado para “razonar” a través de problemas que involucran matemáticas, ciencias y programación de computadoras. Muchos expertos señalaron que Deepseek no había construido un modelo de razonamiento en este sentido, que se ve como el futuro de la IA
Luego, el 20 de enero, Deepseek lanzó su propio modelo de razonamiento llamado Deepseek R1, y también impresionó a los expertos. Eso finalmente nos envió a los inversores y a otros a un pánico a fines de la semana pasada y durante el fin de semana al darse cuenta de la importancia de la nueva tecnología de Deepseek.
Los gigantes tecnológicos estadounidenses están construyendo centros de datos con chips de IA especializados. ¿Todavía importa esto, dado lo que Deepseek ha hecho?
Sí, todavía importa.
Un gran número de chips de IA aún pueden ayudar a las empresas de muchas maneras. Con más chips, pueden ejecutar más experimentos a medida que exploran nuevas formas de construir IA en otras palabras, más chips aún pueden dar a las empresas una ventaja técnica y competitiva.
También se necesitarán más chips para operar la nueva raza de modelos de IA “razonamiento”, dijeron los expertos. Estos requieren más potencia informática cuando las personas y las empresas los usan.
¿No ha limitado los Estados Unidos el número de chips Nvidia vendidos a China?
Sí. Para mantener el liderazgo de los Estados Unidos en la carrera global de IA, la administración Biden había establecido reglas que limitaban el número de poderosos chips que podrían venderse a China y otros rivales.
Pero el impresionante desempeño del modelo Deepseek planteó preguntas sobre las consecuencias involuntarias de las restricciones comerciales del gobierno estadounidense. Los controles han obligado a los investigadores en China a ser creativos con una amplia gama de herramientas que están disponibles gratuitamente en Internet.
Algunos expertos continúan argumentando a favor de las restricciones comerciales estadounidenses, diciendo que recientemente se establecieron y que tendrán un mayor efecto en las habilidades de China para crear IA a medida que pasan los años.
¿La tecnología de Deepseek significa que China ahora está por delante de los Estados Unidos en IA?
No. El mundo aún no ha visto el modelo O3 de OpenAI, y su rendimiento en las pruebas de referencia estándar fue más impresionante que cualquier otra cosa en el mercado. Pero a los expertos les preocupa que China esté avanzando en los sistemas de IA de código abierto.
¿Qué es exactamente la IA de código abierto?
Al igual que muchas otras compañías, Deepseek ha “abierto” su último sistema de IA, lo que significa que ha compartido el código de computadora subyacente con otras empresas e investigadores. Esto permite a otros construir y distribuir sus propios productos utilizando las mismas tecnologías.
Esto es parte de la razón por la cual Deepseek y otros en China han podido construir sistemas de IA competitivos de manera tan rápida y económica.
En el mundo de la IA, el código abierto se reunió por primera vez en 2023 cuando Meta compartió libremente un sistema de IA llamado Llama. En ese momento, muchos asumieron que el ecosistema de código abierto florecería solo si empresas como meta, empresas gigantes con enormes centros de datos llenos de chips especializados, continuaran abiertos de sus tecnologías.
Pero Deepseek y otros han demostrado que este ecosistema puede prosperar de una manera que se extiende más allá de los gigantes tecnológicos estadounidenses.
¿Por qué es eso importante?
Muchos expertos han argumentado que las grandes empresas estadounidenses no deberían abierta de código a sus tecnologías porque podrían usarse para difundir la desinformación o causar otro daño grave. Algunos legisladores estadounidenses han explorado la posibilidad de prevenir o estrangular la práctica.
Pero otros expertos han argumentado que si los reguladores sofocan el progreso de la tecnología de código abierto en los Estados Unidos, China obtendrá una ventaja significativa. Si las mejores tecnologías de código abierto provienen de China, estos expertos argumentan que los investigadores y empresas estadounidenses construirán sus sistemas sobre esas tecnologías.
A la larga, eso podría poner a China en el corazón de la investigación y el desarrollo de la IA, lo que podría acelerar aún más su esfuerzo para construir una amplia gama de tecnologías de IA, incluidas armas autónomas y otros sistemas militares.