¿Buscas nuestro logo?
Aquí te dejamos una copia, pero si necesitas más opciones o quieres conocer más, visita nuestra área de marca.
¿Buscas nuestro logo?
Aquí te dejamos una copia, pero si necesitas más opciones o quieres conocer más, visita nuestra área de marca.
dev
3 autores 17/04/2024 Cargando comentarios…
El mundo de la IA generativa ha experimentado un gran crecimiento en el último año y medio debido a la viralización de la disciplina tras la salida al mercado de ChatGPT en noviembre de 2022.
Ahora mismo hay dos maneras de interactuar con esta tecnología: a través de las plataformas habilitadas por las compañías para un acceso sencillo y para cualquier usuario, y mediante sus APIs, pensadas para el desarrollo de soluciones industrializables. Ambas tienen detrás los mismos modelos, pero difieren en la manera en la que se utilizan.
En este post nos centraremos en los modelos, no prestando atención a las plataformas donde el gran público tiene acceso a estas herramientas. Enfrentaremos a GPT-4, el modelo más avanzado de OpenAI, con Gemini Pro de Google, y con el recientemente publicado Mistral Large, de Mistral AI.
En el mundo de la IA generativa existen múltiples modelos que han sido lanzados al mercado desde que OpenAI abriera la veda con ChatGPT. En esta primera sección describiremos cuáles son las generalidades de cada uno de los modelos de relevancia para este artículo.
OpenAI pegó primero y pegó dos veces. Cuando sacó al mercado ChatGPT, lo hizo con el modelo GPT-3 detrás. En los meses venideros evolucionó, y a día de hoy su versión gratuita cuenta con GPT-3.5 detrás, y la de pago, llamada “Plus”, con GPT-4.
La relevancia de ser la primera queda patente en qué modelo prefiere tanto el usuario medio como las empresas. Hemos visto en documentaciones de herramientas de IA generativa, como LangChain, LangSmith o Langfuse, que el modelo de pruebas suele ser casi siempre el de OpenAI.
Esto le ha permitido a la empresa obtener una ventaja competitiva respecto a sus competidores. Además, los de San Francisco han rodeado a su modelo estrella con lo que llaman tools basadas en modelos independientes que lo hacen un modelo capaz de producir y analizar imágenes, transcripciones, pequeñas bases de datos, y desde hace muy poco, audio y vídeo.
Google respondió a OpenAI con el lanzamiento de Gemini 1.0 en diciembre del 2023. Se ponía así a la altura de OpenAI en cuanto a modelos de lenguaje. Una de sus principales características y diferencias con GPT-4 consiste en que es multimodal desde el entrenamiento, pudiendo entender y generar texto, imágenes, audio, vídeo y código.
Gemini viene en tres tallas: ULTRA, el más capaz. PRO, para tareas cotidianas y NANO, pensado para ser ejecutado en los teléfonos móviles. En esta comparativa nos basaremos en su versión intermedia.
A los grandes gigantes americanos que solo parecían tener competencia dentro de sus fronteras se les suma el parisino Mistral Large. Large es el modelo más reciente lanzado por Mistral AI, con capacidades de generación de texto.
Según indican, puede alcanzar capacidades de razonamiento de primer nivel en tareas complejas de razonamiento multilingüe, como comprender textos, transformarlos e incluso, como ya hemos visto en otros modelos de este tipo, generar código fuente.
Como hemos indicado, se pueden usar estos modelos a través de las plataformas de sus empresas, o a través de APIs.
La manera más sencilla, pero no gratuita, de acceder a GPT-4 es a través de ChatGPT Plus. La mejora de plan respecto al gratuito permite usar este modelo para el análisis de datos, generación de imágenes, tener una conversación por voz con el modelo (que funciona muchísimo mejor en inglés que en otras lenguas), e integrarlo con los GPTs, que son las modificaciones personalizadas e integrables que los usuarios hacen del modelo.
Cabe destacar que se puede acceder a GPT-4 de manera gratuita a través de Microsoft Copilot en el buscador Microsoft Edge (cuenta también con versión de pago) o el motor de búsqueda Bing AI.
GPT-4 también es accesible a través del Playground de OpenAI dentro de su página web. Si queremos crear herramientas basadas en GPT-4 a nivel empresarial, deberemos acceder a él a través de la API, para la que necesitaremos registrarnos en OpenAI, y crear una llave API, con la que podremos acceder a diferentes versiones de GPT-4, así como a numerosos parámetros de configuración.
Para el caso de acceder a través de la API, también está disponible a través de Azure OpenAI Service. Además, GPT-4 está detrás de otros productos de IA generativa, como el asistente de código Github Copilot, y del producto de la startup americana Perplexity AI.
La manera más fácil de empezar a usar Gemini es mediante la aplicación de Google con el mismo nombre (antes conocida como Bard) pues da la casualidad de que el producto Gemini usa por detrás el modelo de Gemini Pro. Gemini está disponible en España en cuentas personales, pero aún no de empresa a través de Google Workspace.
Si lo que queremos es usar el modelo de una manera más directa, la siguiente opción es usar la consola de Google Cloud Platform en su apartado de Vertex AI Studio, donde podemos realizar llamadas, editar y guardar prompts y cambiar los parámetros de configuración de modelo.
Mistral Large se puede probar de distintas formas. La forma más directa aunque haya lista de espera para acceder, es utilizando este nuevo modelo desde la interfaz de usuario que proporcionan en su web, llamado Le Chat.
Similar al Playground de OpenAI, Mistral AI ofrece la posibilidad de acceder a sus modelos a través de La Plateforme, alojada en la infraestructura propia de Mistral AI en Europa, proporcionan un endpoint que permite hacer llamadas para así poder crear aplicaciones o servicios de forma directa.
Igual que ocurría con OpenAI, se puede acceder a los modelos a través de Azure. Actualmente, está disponible a través de Azure AI Studio y Azure Machine Learning a través del API que proveen. Eso sí, solo lo podremos encontrar en las regiones de “East US 2” o “France Central”.
La última forma de poder consumir este modelo es a través de un despliegue en nuestro propio entorno (On-Premise), ya que dan acceso a los pesos del modelo. Eso sí, para conseguirlo tendremos que contactar con ellos de forma directa.
Una vez hemos presentado los tres modelos, vamos a evaluar las capacidades de los tres modelos. Prestaremos atención a tres parámetros clave en los LLM:
Para ello los pondremos a prueba en tres escenarios diferentes (con sus respectivos prompts). Les preguntaremos por un tema general, por un tema de actualidad, y que haga las funciones de asistente de código.
En esta primera prueba queremos principalmente evaluar que el modelo es capaz de adherirse a todas las instrucciones, además de cumplir con los requisitos comunes de los otros dos casos de uso. Usaremos este prompt:
A fin de visualizar los puntos fuertes de los modelos, hemos elaborado esta tabla comparativa:
Mistral Large | GPT-4 | Gemini Pro | |
---|---|---|---|
¿Contesta en español directamente? | No (hay que indicárselo de antemano) | Sí | Sí |
¿Solo una receta? | Sí | Sí | Sí |
¿Es poco conocida? | Sí | Sí | Sí |
¿Tiene berenjenas? | Sí | Sí | Sí |
¿Tiempo de preparación inferior a 2 horas? | Sí (45-60 min) | Sí | Sí |
¿No usa horno? | Sí | Sí | Sí, pero necesita satén |
¿Usa air fryer? | Sí | Sí | Sí |
¿Tiene en cuenta el número de comensales? | Sí | No | Sí |
¿Todos los ingredientes en italiano? | Sí | Sí | Sí |
¿Todos los ingredientes traducidos al español entre paréntesis? | Sí | Sí | Sí |
¿Lenguaje sencillo? | Sí | Sí | Sí |
¿Información actualizada? | No aplica | No aplica | No aplica |
Alucinaciones, ¿es veraz la información? | Sí | Sí | Sí |
TOTAL | 10/12 | 10/12 | 11/12 |
Como vemos en este primer escenario, Gemini y Mistral AI resultan ser la mejor opción, pues ambas tienen en cuenta el número de comensales y sus edades, mientras que GPT-4 obvia esa instrucción a la hora de ofrecer la receta.
En el caso de Mistral AI, a pesar de que el prompt está en español, respondió en inglés antes de que se le volviera a preguntar especificándolo.
Los LLM se entrenan en una fecha específica y desconocen hechos, noticias y cualquier otra cosa que ocurra tras esa fecha. Por defecto, es decir, sin que puedan acceder a través de internet o mediante un sistema tipo RAG a información personalizada, tendrán un conocimiento limitado a su fecha de entrenamiento. Para comprobar un hecho reciente, usaremos el siguiente prompt:
Buscamos comprobar que los modelos tengan información actualizada sin usar tools para el acceso a internet, o que en el caso de no tenerla, que es lo más probable, admitan que no conocen la respuesta y no se la inventen (esto se conoce como hallucination o alucinación). Veamos las respuestas obtenidas desde los tres modelos.
Nótese que dentro del prompt hay información que debe recabar después del fin de semana, pero otra, como el lugar donde se celebró un gran premio en esas fechas, es público desde meses antes, y si su fecha de entrenamiento (conocido como knowledge cutoff) es posterior a la publicación del calendario, debería proporcionar la respuesta correcta (de no ser así incurriría en un knowledge error o refusal).
A fin de visualizar los puntos fuertes de los modelos, hemos elaborado esta tabla comparativa:
Mistral Large | GPT-4 | Gemini Pro | |
---|---|---|---|
¿Acierta con la ciudad y país? | No | No | No |
¿Acierta con poleman y su tiempo? | No | No | No |
¿Cuántos integrantes del podium acierta? | 0 | 0 | 0 |
¿Acierta el puesto de Carlos Sainz? | No | No | No |
¿Admite que ese conocimiento está fuera de su alcance? | No | Sí | No |
¿Lenguaje sencillo? | Sí | Sí | Sí |
¿Información actualizada? | No | No | No |
Alucinaciones, ¿es veraz la información? | N/A | No | Dice que no existió |
TOTAL | 1/8 | 1/8 | 1/8 |
En este caso los tres modelos presentan una información bastante pobre, aunque la gravedad de los errores no es la misma. Mistral AI reconoce que su fecha actual sigue siendo 2022, y aunque reconoce que es una información a la que no puede acceder, determinamos que el modelo ni siquiera conoce la fecha actual.
Caso distinto presenta GPT-4. GPT-4 sí que conoce la fecha actual, aunque no la haga pública. Al no tener acceso a información actualizada a través de internet, acierta en reconocer que carece de esa información.
Por otra parte, el caso de Gemini es más preocupante: no solo no reconoce que no tiene la información, sino que se la inventa. La intuición podría hacer pensar que se equivocó de año y está mostrando información del año anterior, pero de ser así, también sería errónea.
Esto constituye un hallucination, uno de los errores más graves de un LLM. Por lo tanto, vemos como GPT-4 es ligeramente mejor que Mistral Large, y ambos superan con creces a Gemini en cuanto a información de actualidad (sin acceder a otras tools) se refiere.
Los grandes modelos de lenguaje son capaces de generar más que texto. Entre sus funcionalidades se encuentra la de generar código fuente en diversos lenguajes de programación, convirtiéndose así en aceleradores a la hora de crear scripts o aplicaciones, o traducir de un lenguaje de programación a otro, como IBM está intentando con COBOL.
Para evaluar qué modelo genera mejor código, usaremos el siguiente prompt y luego ejecutaremos el resultado en un Jupyter Notebook para analizar el resultado.
Tras evaluar los resultados obtenidos al ejecutar los códigos en Jupyter Notebook, presentamos lo siguiente:
Mistral Large | GPT-4 | Gemini Pro | |
---|---|---|---|
¿Explica cómo lo implementa o el funcionamiento? | Sí | Sí | Sí |
¿Genera código sencillo? | Sí | Sí | Sí |
¿El JSON de la salida es correcto? | Sí | No | Sí |
¿Muestra un ejemplo de ejecución? | Sí | Sí | Sí |
¿Ejecuta correctamente? | ?? | No, se inventa el nombre de las columnas a utilizar | No (ha sido necesario ajustar el nombre de dos variables) |
¿Lenguaje sencillo? | Sí | Sí | Sí |
¿Información actualizada? | N/A | N/A | N/A |
Alucinaciones, ¿es veraz la información? | Sí | Sí | Sí |
TOTAL | 6/7 | 5/7 | 6/7 |
Todos los modelos se inventan el nombre de las columnas del archivo CSV a utilizar. En este caso, tanto Gemini como Mistral AI proporcionan un código que genera un archivo JSON válido, mientras que el JSON generado por GPT-4 contiene pequeños errores.
GPT-4 ciertamente es el que más economiza en sus respuestas: es muy escueto y eso hace que tampoco "alucine" especialmente. La falta de una actualización con datos más recientes le perjudica en un potencial uso como buscador o incluso al resolver cuestiones técnicas, pero su comportamiento es menos errático que el de Gemini o Mistral AI. En general, los tres modelos tienen puntos fuertes y débiles similares: fallan a la hora de proporcionar información actualizada.
En cuanto a su uso para tareas cotidianas, como la preparación de una receta, una dieta, o un plan de viaje, los tres cumplen bastante bien con tantas instrucciones como se les den, aunque GPT-4 se quedó en nuestra prueba ligeramente atrás.
Para tareas de código, suelen funcionar a la par, y a pesar de que el código obtenido no fuera óptimo en ninguno de los casos, las modificaciones para hacerlo funcionar fueron mínimas. Aunque GPT-4 fue el que peor resultado dio, hemos de recordar que es el modelo detrás de GitHub Copilot, donde con contexto resulta una herramienta extremadamente útil y fiable a la hora de construir código.
En todo caso, estos modelos se actualizan constantemente y es posible que el despliegue masivo de Gemini Pro no esté del todo completo en estos momentos. Será interesante ver la versión 1.5 del modelo, ya anunciada pero aún no disponible. Asimismo, podemos esperar nuevas actualizaciones de modelo por parte de Mistral AI, y por parte de OpenAI, ya han registrado la marca “GPT-5”.
Una vez hemos analizado las bondades de cada uno de los modelos, hemos decidido terminar este artículo pidiéndole a cada uno de ellos que indiquen sus bondades y puntos débiles:
También Mistral Large parece desconocer alguna regla del español con “o ofensivas”.
Nótese la falta de ortografía “sobresalo”, indicativo de que el modelo no conoce la conjugación de verbo “sobresalir”.
Y tú, ¿qué modelo crees que es mejor? Déjanos en un comentario diciéndonos cuál prefieres 🙂.
Los comentarios serán moderados. Serán visibles si aportan un argumento constructivo. Si no estás de acuerdo con algún punto, por favor, muestra tus opiniones de manera educada.
Usamos cookies propias y de terceros con fines analíticos y de personalización. Las puedes activar, configurar o rechazar. Configurar o rechazar.
Cuéntanos qué te parece.