La startup china lanzó las versiones preliminares V4 Flash y V4 Pro, destacando avances en rendimiento y eficiencia, en un contexto de fuerte competencia global.
DeepSeek, la startup china de inteligencia artificial, lanzó las versiones preliminares de su nuevo modelo insignia, denominado V4, en sus variantes Flash y Pro. La compañía presentó estas plataformas como las más potentes de código abierto, buscando competir directamente con rivales como OpenAI, Google y Anthropic.
Según información publicada en la plataforma Hugging Face, los nuevos modelos incorporan mejoras significativas en arquitectura y optimización. Entre las novedades destaca la técnica Hybrid Attention Architecture, que permite mejorar la capacidad de recordar consultas en conversaciones extensas, así como una ventana de contexto de 1 millón de tokens, lo que facilita el procesamiento de documentos completos o bases de código como una sola instrucción.
El lanzamiento ocurre un año después de que DeepSeek provocara una fuerte caída en los mercados bursátiles globales con su modelo R1, un sistema de código abierto que imitaba el razonamiento humano y que, según se afirmaba, fue desarrollado a una fracción del costo de sus competidores. En esta ocasión, la empresa señaló que la capacidad de servicio para la serie V4 Pro es limitada debido a la escasez de cómputo, pero espera que los precios disminuyan significativamente en el segundo semestre, cuando entren en funcionamiento clústeres impulsados por los chips Ascend 950 de Huawei.
En el plano financiero, DeepSeek se encuentra en conversaciones con Tencent y Alibaba para su primera ronda de financiación. Mientras tanto, las acciones de fabricantes chinos de semiconductores, como Semiconductor Manufacturing International Corp., registraron alzas de hasta el 9,4% en la bolsa de Hong Kong, en tanto que rivales como Zhipu cayeron un 8%.
El nuevo modelo V4 utiliza la técnica Mixture-of-Experts, que activa selectivamente solo un subconjunto de parámetros por tarea, lo que permite mantener costos de inferencia reducidos. DeepSeek afirmó que su rendimiento supera al de modelos como GPT-5.2 de OpenAI en pruebas estándar, aunque reconoció que está rezagado entre 3 y 6 meses respecto a los modelos más avanzados del mercado.
El lanzamiento también ha generado controversia. Líderes tecnológicos y funcionarios del gobierno estadounidense han acusado a DeepSeek de utilizar técnicas de destilación —que consiste en entrenar un modelo a partir de la salida de otro— de manera ilícita. Tanto OpenAI como Anthropic han señalado haber detectado este tipo de ataques por parte de la startup china.
