Noviembre ha sido uno de los meses más intensos en la historia reciente de la inteligencia artificial. Google sacude el panorama con Gemini 3 y Nano Banana Pro, Anthropic responde con su nuevo Opus 4.5, y OpenAI impulsa la serie GPT-5.1.

En este episodio desglosamos los lanzamientos clave durante este mes de noviembre, por qué importan y cómo están acelerando la carrera hacia la IA del futuro.

Novedades en modelos de lenguaje y multimodales

Actualmente, la batalla por el modelo más potente del mundo está más viva que nunca, con Google y Anthropic intercambiando el puesto de liderazgo en los benchmarks.

El impacto de Google: Gemini 3 y Gemini Agent

La noticia principal del mes es el lanzamiento oficial de Gemini 3 por parte de Google. Este nuevo modelo se promociona como el más sofisticado hasta la fecha, superando en métricas clave a sus predecesores y a modelos de la competencia como GPT-5.

Su principal foco es la comprensión multimodal avanzada, capaz de "leer el entorno" y generar experiencias interactivas, con una gran capacidad para captar profundidad y matices en razonamiento complejo.

Desde el día uno, Gemini 3 y su versión avanzada Gemini 3 Pro, están integrados en la búsqueda de Google, aplicaciones y herramientas para equipos de desarollo. La versión Pro está especialmente centrada en ir más allá del procesamiento de grandes cantidades de información, enfocándose en la calidad y el razonamiento.

Junto con el lanzamiento de Gemini 3, se anunció Gemini Agent, el siguiente paso hacia la creación de un asistente de IA universal.

Gemini Agent elabora un plan y combina funciones avanzadas (como navegación web en tiempo real, capacidades de investigación profunda e integración fluida con algunas de tus aplicaciones de Google) para ejecutar ese plan en tu nombre.

Ordenar tu correo, responder mails o hacer una reserva son solo algunas de las infinitas posibilidades que se abren.

Anthropic lanza Opus 4.5

Apenas unos días después del lanzamiento de Gemini 3, Anthropic presentó Opus 4.5, arrebatándole el primer puesto en casi todos los benchmarks de mercado. Anthropic sigue apostando fuerte por lo que mejor se le da: tareas de programación y workflows agenticos con uso de herramientas.

Opus 4.5 supera a su modelo anterior, Sonnet 4.5, ofreciendo mayor autonomía y capacidad de resolución de problemas. En términos de eficiencia, introduce un "Parámetro de Esfuerzo" que permite igualar la calidad de modelos anteriores usando hasta un 76% menos de tokens, con un precio muy competitivo.

Además, mejora significativamente la gestión del contexto en conversaciones largas y se integra de forma directa con el API y aplicaciones clave como Claude Code y Excel.

Mejoras en la serie GPT-5 con GPT-5.1

OpenAI mantiene la competencia con la evolución de su serie GPT-5 a la versión GPT-5.1, que trae dos versiones: Instant y Thinking. Esta evolución mejora significativamente tanto en inteligencia como en estilo de comunicación.

GPT‑5.1 Instant mejora además el uso de tool calling, mientras que la versión Thinking ahora adapta su tiempo de reflexión con mayor precisión a la pregunta, dedicando más tiempo a los problemas complejos y respondiendo más rápido a los sencillos.

Novedades en imagen, vídeo y creatividad

El mes de noviembre ha traído una revolución visual, centrada en la calidad de estudio, el razonamiento y la creación de mundos sintéticos.

Nano Banana Pro: el generador de imágenes de Google

Hace tan solo unos meses, Google lanzó Nano Banana, su modelo de imágenes basado en Gemini 2.5 Flash, que supuso un gran paso en la edición de imágenes para creadores ocasionales.

El pasado 20 de noviembre, el salto fue cualitativo con la presentación de Nano Banana Pro (Gemini 3 Pro Image). Este nuevo modelo de vanguardia para la generación y edición de imágenes está construido sobre Gemini 3 Pro, lo que le permite utilizar el razonamiento de última generación y el conocimiento del mundo real de Gemini para visualizar información mejor que nunca.

Su característica estrella es la precisión superior para renderizar texto legible y preciso directamente en las imágenes (carteles, infografías, cómics). Además, utiliza el "conocimiento del mundo real" y la conexión con la búsqueda de Google para crear visualizaciones de datos complejas e infografías basadas en información en tiempo real.

Nano Banana Pro ofrece control de estudio con ajustes avanzados como ángulo de cámara, enfoque (efecto bokeh), iluminación y generación en resoluciones de hasta 4K.

Además, permite combinar hasta 14 elementos de entrada para mantener una coherencia visual y el parecido de hasta cinco personas en composiciones complejas. Google lo ha integrado en la versión gratuita de Gemini, en NotebookLM y se está desplegando para la creación de anuncios en Google Ads y en herramientas de Workspace.

Integración total con Google Flow

La plataforma de creación audiovisual de Google, Flow, se consolida. La novedad más destacada es que ahora los usuarios pueden crear y editar imágenes directamente dentro de un proyecto de Flow sin tener que salir de la plataforma, eligiendo entre los modelos Nano Banana o Imagen 4 (para alta resolución hasta 2K).

Las mejoras en el motor de vídeo Veo 3.1 han dotado a Flow de un audio más rico, tomas extendidas que se conectan de forma más fluida para facilitar la construcción de narrativas largas, y una edición más sencilla.

Además, el backend de Flow se beneficia de la lógica avanzada de Gemini 3 Pro, lo que se traduce en una mejor interpretación de prompts complejos y un control creativo avanzado que utiliza el conocimiento del mundo real para generar escenas con mayor realismo y consistencia.

Avances en vídeo y audio

Runway Gen-3 Alpha sigue destacando como una de las utilidades más importantes en la generación de vídeo, buscando eficiencia y calidad en la creación de contenido.

Por otro lado, Meta ha presentado Omnilingual ASR, un sistema de reconocimiento de voz de código abierto que cubre más de 1.600 lenguas, incluyendo muchas lenguas de bajo recurso que hasta ahora no estaban bien representadas.

El modelo base, con 7.000 millones de parámetros, generaliza muy bien a idiomas no vistos, lo que democratiza el acceso a la tecnología de voz.

"Physical AI" y transparencia

Las innovaciones de noviembre se extienden a la simulación y la ética, con grandes avances de NVIDIA y un dataset clave para la detección de deepfakes.

NVIDIA y la simulación física (Physical AI)

NVIDIA ha liberado su modelo Cosmos Predict 2.5, diseñado para la simulación de "Physical AI". Este unifica la generación de texto a mundo (Text2World), imagen a mundo (Image2World) y vídeo a mundo (Video2World) en un solo modelo.

Ha sido entrenado con más de 200 millones de clips de vídeo curados y utiliza una arquitectura basada en flujos más un modelo de razonamiento (Cosmos-Reason1) para tener un control más fino sobre la simulación del mundo físico.

Además, se ha lanzado Cosmos-Transfer 2.5, una variante estilo Control-Net para traducir entre vídeo sintético y real (Sim2Real y Real2Real), lo que tendrá un gran impacto en robótica, simulaciones y generación de datos sintéticos.

GenWorld: el nuevo dataset de detección

En un paso hacia la transparencia, ha surgido GenWorld, un dataset clave para entrenar modelos de detección de vídeos y contenido generados por IA, ayudando a la comunidad a verificar el origen del contenido digital.

Si quieres conocer todas estas novedades en detalle, ¡escucha el episodio completo!

Cuéntanos qué te parece.

Los comentarios serán moderados. Serán visibles si aportan un argumento constructivo. Si no estás de acuerdo con algún punto, por favor, muestra tus opiniones de manera educada.

Suscríbete