Análisis técnico de Deepseek R1, ¿qué hace distinto y cómo? - Apple Coding Daily

Deepseek v3 y su modelo de razonamiento R1, han revolucionado el mundo de la IA como hacía mucho que no se sucedía. Incluso afectando al índice bursátil tecnológico (el NASDAQ) y provocando la mayor caída en valor de la historia de la humanidad en un solo en NVIDIA. Pero, ¿por qué todo este revuelo? ¿Qué hace distinto Deepseek o qué aporta al mercado de la IA para que lleguemos a esa situación? En este programa, analizamos qué es Deepseek de forma técnica: qué innovaciones ha aportado en su entrenamiento o cómo se ejecuta para ahorrar una considerable cantidad de recursos. Te explicamos los pilares fundamentales, como la arquitectura MLA de atención latente múltiple, la arquitectura mejorada de sistemas expertos o la predicción multi-token que se usado en su entrenamiento así como las distintas capas de mejora en dicho proceso que ha permitido un modelo más eficiente, con menos necesidad de recursos y menor coste. Una lección magistral de cómo s...