Desde hace unos años se está librando una batalla en el mundo de IA que ha sido llevada a su máxima tensión con la viralización y popularización de la IA generativa.

A estas alturas ¿quién no ha oído hablar de ChatGPT o Bard? A finales del año pasado, Google enseñó su próxima carta: Gemini, que tiene como principal novedad su multimodalidad, es decir, su capacidad para recoger como entrada diferentes tipos de formatos (vídeo, imagen, texto o audio) y generar a su salida cualquiera de estos formatos.

Gemini es un modelo de inteligencia artificial creado por Google. Es importante diferenciar que los modelos no son las aplicaciones o chatbots como Google Bard, sino que son la tecnología con la que estos funcionan. Gemini quiere ser el sucesor de PaLM, que es el modelo de inteligencia artificial que antes utilizaba Bard.

Gemini se enmarca como la nueva evolución de modelos de IA generativa, donde su principal avance consiste en que ha sido diseñado y entrenado desde cero de manera multimodal, pudiendo usar el mismo modelo para texto, imágenes, vídeo, audio y código.

Para ser precisos, más que un modelo es una familia de modelos, de forma que vamos a tener varios tamaños y derivados, todos dentro de la familia Gemini.

Como hemos comentado anteriormente, la principal novedad de Gemini consiste en que ha sido diseñado y entrenado de forma multimodal. Gracias a esto podemos enviar información de varias formas simultáneamente. Por ejemplo, enviamos un audio con una canción y le pedimos que nos cambie la letra para que sea distinta.

Evidentemente esto nos abre nuevas posibilidades en cuanto a las tareas que puede hacer el modelo, pero también mejora muchas de las que ya utilizamos con modelos no multimodales.

¿Son los modelos multimodales una verdadera revolución? ¿Cambiarán mucho nuestra forma de usar los LLM? Si quieres saber nuestras opiniones y conocer más sobre Gemini no te pierdas este episodio de ‘Cómo conocí a nuestro cloud’.

¿Dónde escuchar nuestros podcast?

Puedes escucharlos en las principales plataformas de podcast: Ivoox, Spotify, YouTube, Google Podcast, Apple Podcast y Amazon Music.

Imagen de portada: Unsplash

Cuéntanos qué te parece.

Los comentarios serán moderados. Serán visibles si aportan un argumento constructivo. Si no estás de acuerdo con algún punto, por favor, muestra tus opiniones de manera educada.

Suscríbete

Estamos comprometidos.

Tecnología, personas e impacto positivo.