DeepSeek v4 presiona a los modelos cerrados

DeepSeek v4 llegó tarde, pero, según Salvatore Sanfilippo, valió la espera. Su veredicto es tajante: la versión Pro es ahora el modelo de pesos abiertos de referencia, capaz de plantarle cara a los sistemas cerrados más conocidos en tareas de razonamiento y código. La verdadera novedad, sin embargo, no es solo técnica. Si un modelo de esta escala puede ejecutarse en local con un rendimiento creíble, entonces la ventaja de los grandes proveedores ya no es solo la calidad, sino su capacidad para absorber los costes.

Un modelo de pesos abiertos que importa

Sanfilippo presenta DeepSeek v4 Pro como un salto claro frente a los otros modelos de pesos abiertos que cita, de GLM 5.1 a Kimi K2.6. En su relato, no es una diferencia cosmética: tras dos horas de uso, dice que la alineación y el trabajo con código se sienten muy cerca de los modelos cerrados de primer nivel.

DeepSeek versión 4 Pro es, ahora mismo, el modelo abierto de frontera, claramente mejor que GLM 5.1, creo que que el último, y claramente mejor que Kimi K2.6.
0:00

No hay comparación con los modelos de pesos abiertos ni siquiera en el uso práctico, porque hice una sesión de dos horas y la alineación, la forma en que trabaja con código, se acerca mucho a los modelos cerrados a los que estamos acostumbrados.
0:36

Su tesis es que DeepSeek v4 Pro se mueve, en líneas generales, en territorio de GPT 5.2 o Opus 4.5) según la tarea. Para Sanfilippo, la cuestión no es coronar un vencedor absoluto, sino reconocer que, en software, el modelo chino ya parece muy fuerte.

La calidad viene de la estructura

Detrás del resultado, dice Sanfilippo, hay una arquitectura enorme hecha más manejable por la esparsidad. Afirma que el modelo tiene 1.6 × 10^12 parámetros, o 1,600 mil millones, pero activa solo 49 mil millones por token, lo que hace la inferencia relativamente sostenible.

El modelo es enorme, tiene 1.6 × 10 a la 12 parámetros, es decir, 1,600 mil millones de parámetros. Un modelo realmente grande, pese a todo, gracias a la esparsidad MoE, que activa solo 49 mil millones de parámetros por cada token generado.
2:18

La mayoría de los pesos están en 4 bits, otros pesos en 8 bits, otras partes en la atención, y RoPE se mantiene siempre en precisión completa.
3:13

El modelo usa precisión mixta, con gran parte de los pesos en 4 bits, otros en 8 bits y RoPE^* mantenido en precisión completa. Sanfilippo también subraya dos canalizaciones de atención y una elección de enrutamiento que, en las primeras capas, renuncia a perseguir el significado de inmediato, porque allí la señal semántica aún es débil.

El coste sigue siendo el cuello de botella

Para Sanfilippo, el verdadero freno ya no es la calidad del modelo, sino el coste operativo. Dice que DeepSeek v4 cuesta unos 3.48 dólares por millón de tokens de salida y alrededor de 5 dólares en GPT 5.5, con la entrada mucho más cara en DeepSeek si no está bajo ciertas condiciones de caché.

DeepSeek cuesta 3.48 por la misma cantidad de tokens de salida; para tokens de entrada es como 70 dólares por millón de tokens si no están cacheados, de lo contrario baja aún más.
10:11

La inteligencia artificial cuesta una fortuna, no hay absolutamente ninguna alternativa porque el coste energético de estos modelos enormes y la inferencia de modelos autoregresivos con atención tal como existe hoy cuesta.
14:07

Su conclusión resulta incómoda para cualquiera que espere una caída rápida de precios. Incluso si DeepSeek promete reducciones cuando lleguen las nuevas GPU de Huawei, Sanfilippo sostiene que un modelo tan grande no puede bajar a unos pocos céntimos por millón de tokens sin cambiar la base de hardware o la arquitectura.

El uso local vuelve a ser creíble

Para Sanfilippo, esta estructura vuelve plausible el uso local. Con un Mac Studio con 512 GB de RAM, dice, un usuario podría ejecutar un modelo casi de frontera en su propio ordenador, con rendimiento suficiente para usarlo como un agente de programación real y no como un juguete.

Si alguien tiene un Mac Studio con 512 GB de RAM, tiene un modelo casi de frontera que puede correr en su propio ordenador con pesos nativos y, dada la esparsidad con 13 mil millones de parámetros activos, también va rápido.
6:20

No es un juguete que puedas usar de verdad como alternativa a los proveedores.
7:38

Aquí su razonamiento pasa del benchmarking a la economía personal: con modelos así, la línea entre el servicio en la nube y la máquina privada se adelgaza. Sanfilippo dice que ya ha ejecutado DeepSeek v4 con herramientas como Claude Code^* simplemente redefiniendo los endpoints, una señal de que el ecosistema de herramientas importa casi tanto como el modelo mismo.

Los benchmarks no bastan

Sanfilippo intenta defender el veredicto con una prueba que creó él: un intérprete que escribió hace años llamado people, que el modelo tiene que mejorar sin superar las 3,000 líneas de código y evitando regresiones. El criterio no es ganar un benchmark fácil, sino acelerar el software sin hacer trampa.

Tienes que, de forma continua, bajo el contrato de 3,000 líneas de código, seguir mejorando la velocidad de ejecución de ese intérprete en el benchmark sin tener nunca regresiones de calidad.
16:08

Con DeepSeek versión 4, da la sensación de que estás tratando con la cosa por la que normalmente pagas.
17:27

Aquí la conversación se vuelve más interesante que el entusiasmo simple. Sanfilippo dice que en Kimi K2.6 esta prueba falla de inmediato, mientras que en DeepSeek v4 el comportamiento se parece al de los modelos por los que la gente suele pagar: una comprobación imperfecta, pero más cercana al uso real que a una clasificación abstracta.

Hay tres modos de pensamiento, Nothing, think y think max. Básicamente activas TMAX con un prompt de sistema.
18:13

La documentación, dice, es clara y las opciones para desarrolladores están bien resueltas. El cuadro final sigue siendo prudente pero positivo: solo probó la versión Pro, espera ver Flash en hardware más potente y sugiere que, si incluso la versión ligera aguanta, la ventaja económica de los planes de tarifa plana podría empezar a tambalearse.

FAQ

¿Por qué le gusta tanto DeepSeek v4 Pro a Sanfilippo?

Porque, según dice, se comporta como un modelo cerrado de primer nivel, sobre todo al programar. Tras dos horas de pruebas, afirma que la alineación y los resultados se sienten como los de sistemas premium.

¿Qué tamaño tiene DeepSeek v4?

Sanfilippo dice que el modelo tiene 1.6 × 10^12 parámetros, o 1,600 mil millones. Pero solo activa 49 mil millones por token gracias a la esparsidad MoE.

¿Puede DeepSeek v4 ejecutarse en local?

Sí, según Sanfilippo, en hardware muy potente como un Mac Studio con 512 GB de RAM. Dice que en esa configuración puede convertirse en un agente de programación realmente útil, no solo en una demo.

¿Cuánto cuesta usar DeepSeek v4?

Sanfilippo cita unos 3.48 dólares por millón de tokens de salida y unos 70 dólares por millón de tokens de entrada si no hay caché. Para él, sigue siendo más barato que los grandes proveedores, pero no lo bastante como para ser casi gratis.

¿Qué prueba usó para juzgar el modelo?

Usó un intérprete que escribió llamado people, que el modelo debe acelerar sin superar las 3,000 líneas y sin introducir errores. Dice que DeepSeek v4 rinde mucho mejor que Kimi K2.6 en esa prueba.