¿Sabrías identificar textos generados por IA sin usar detectores?

¿Buscas nuestro logo?

Aquí te dejamos una copia, pero si necesitas más opciones o quieres conocer más, visita nuestra área de marca.

Llevas meses leyendo posts de LinkedIn impecables, pero todos parecen estar cortados por la misma tijera. Cero errores, estructuras simétricas y una monotonía que cansa. Antes de pagar licencias de herramientas que arrojan falsos positivos continuamente, te enseñamos a identificar los tics del lenguaje sintético. Bajar a la tierra los patrones gramaticales más utilizados por la IA protegerá y potenciará la identidad de tu marca frente a la competencia.

¿Por qué la inteligencia artificial escribe con una estructura tan marcada?

Nos hemos acostumbrado a interactuar con cajas negras que devuelven resultados estadísticamente perfectos. Cuando le pides a un modelo generativo que redacte un artículo, su objetivo principal no es ser original o creativo. Su meta matemática consiste en predecir el siguiente token minimizando el margen de error para que el resultado suene lo más coherente posible.

El problema para el negocio surge cuando esta optimización estadística destruye por completo la identidad de las empresas. Las marcas pierden su voz real al publicar párrafos extremadamente equilibrados que nunca se mojan ni toman partido.

Los detectores automatizados nacen con la promesa de solucionar esta problemática, pero la realidad es muy diferente. Aunque evalúan la procedencia del documento, arrojan tasas de falsos positivos que arruinan el flujo de trabajo de cualquier equipo de contenidos.

Si entiendes cómo funciona el motor probabilístico del algoritmo, podrás identificar sus carencias a simple vista sin depender de software de terceros. Eso sí, por el momento, será necesario mantener el HITL (Human in the Loop) para la monitorización de esta tarea.

¿Qué delata a un modelo del lenguaje que genera texto en castellano?

El castellano tiene una riqueza estructural inmensa que choca de frente con las traducciones literales o los pesos estadísticos heredados del inglés. Los modelos más utilizados han sido entrenados mayoritariamente con corpus anglosajones, y eso deja una huella importante en su sintaxis. Reconocer estos patrones semánticos te convertirá en el mejor filtro de calidad para las publicaciones de tu equipo. A continuación te muestro algunos tips para detectar si un texto podría estar generado con IA:

Abuso del gerundio

Este es un claro ejemplo de esta transferencia lingüística. La gramática normativa exige que el gerundio exprese una acción simultánea o anterior al verbo principal de la oración. Los algoritmos ignoran esta regla sistemáticamente porque calcan la función del participio presente del inglés. Si lees una frase del estilo "El programa compiló los datos, mostrando los resultados en pantalla", estás ante una “red flag” de manual. Aunque este uso es posible, podríamos hacer más natural esa transición y añadir una conjunción para separar las acciones.

Estructuras correlativas

Otra señal inconfundible de la generación sintética reside en la cohesión forzada mediante estructuras correlativas. Las máquinas adoran la expresión "no solo..., sino también..." para conectar conceptos dentro de un argumento. Esta simetría constante genera una falsa apariencia de rigor académico que termina resultando agotadora para quien lee. Podemos intercalar transiciones irregulares o simplemente saltar de una idea a otra sin justificar constantemente la conexión.

Adjetivos redundantes

La adjetivación revela igualmente el origen artificial del documento. Al carecer de experiencia física o juicio propio, los LLMs compensan la falta de profundidad añadiendo calificativos redundantes que funcionan como amplificadores cognitivos vacíos. Verás repetidos hasta la saciedad adverbios “grandilocuentes” como esencial, trascendental, crucial o elemental. También notarás que las máquinas intentan cubrir todos los frentes posibles cuando definen un concepto técnico. Construyen frases donde una simple funcionalidad de software pasa a ser "una solución innovadora y versátil" o, simplemente, “lo mejor de ambos mundos”.

Los guiones largos “—” y el punto y coma “;”

A nivel tipográfico también detectamos algunas señales. El guión largo (—) aparece incrustado para introducir aclaraciones donde una coma haría el trabajo perfectamente. Ningún/a redactor/a teclea tres guiones largos en un mismo párrafo a menos que esté sufriendo un colapso sobre el teclado. Igual de destacable es el uso repetido del punto y coma a lo largo del texto, cuando en la mayoría de los casos, puede ser sustituido por un punto y seguido.

Estos son solo algunos ejemplos que denotan un posible uso de IA para la generación de textos. Aunque no puede ser tomado como la verdad absoluta, debido a la riqueza del lenguaje, estos patrones conforman un registro lingüístico propio que sacrifica la naturalidad en favor de una fluidez matemática.

¿Podemos medir matemáticamente esta monotonía textual?

La lingüística computacional utiliza dos conceptos para auditar la naturalidad de un escrito sin leerlo. Hablamos de la perplejidad y el concepto de “burstiness”. El primer concepto mide el factor sorpresa en la elección de palabras, mientras que el segundo evalúa la variación en la longitud de las oraciones.

El ser humano escribe combinando frases largas con afirmaciones cortas y directas.

Si quieres auditar un corpus de tu empresa sin enviar los datos a un detector de terceros, puedes aplicar un análisis básico de varianza con Python. Identificar un ritmo plano en la longitud de las frases te indicará qué secciones necesitan una revisión urgente.

Las métricas nos confirmarán lo que el ojo humano ya intuye al leer el primer párrafo. Incorporar reglas de estilo en los prompts o realizar una pasada de limpieza manual resulta muy útil si queremos mantener el valor de nuestro mensaje y la personalidad de nuestra marca.

Conclusiones

Identificar el origen de una publicación no requiere de conocimientos elevados sobre la temática. Entender la raíz probabilística de los algoritmos nos permite detectar de una pasada sus carencias narrativas y sus vicios sintácticos.

Modificar estos comportamientos mediante prompting avanzado o reescritura manual (posedición) marca la diferencia entre hacer ruido en internet o aportar conocimiento real.

Ahora sí, ya estás preparado/a para detectar esos posts de LinkedIn de tus contactos que han sido generados por IA. ¿Tienes algún otro tip para detectar el contenido generado por IA sin usar detectores? Te leo en comentarios 👇.

Referencias

José Luis Palomino

Mi perfil es el resultado de combinar mi pasión por el lenguaje (grado en Estudios Ingleses) con el mundo de la tecnología (máster en PLN e IA). Actualmente, como Prompt Engineer en Paradigma, diseño la forma en la que nos comunicamos con los modelos de lenguaje. Algunas de mis tareas son: priorizar la optimización de la latencia, ajustar los costes por token, seleccionar el modelo ideal según el contexto y evaluar rigurosamente su comportamiento para asegurar siempre el mejor resultado en producción.

Ver más contenido de José Luis.

Más contenido sobre esto.

Amazon Bedrock: un facilitador para tus proyectos de IA Generativa

Amazon Bedrock: un facilitador para tus proyectos de IA Generativa.

Por 3 autores

La IA generativa, una aliada para los UX researchers

La IA generativa, una aliada para los UX researchers.

Por Esther Seoanez

Uso de cadenas en LangChain para IA generativa

Uso de cadenas en LangChain para IA generativa.

Por Tomás Calleja

Plataformas de IA: de la teoría a la práctica

Plataformas de IA: de la teoría a la práctica.

Por Andrés Macarrilla

Cuéntanos qué te parece.

Los comentarios serán moderados. Serán visibles si aportan un argumento constructivo. Si no estás de acuerdo con algún punto, por favor, muestra tus opiniones de manera educada.