close portfolio detail

Programa INNcorpora volcado en el análisis de sentimiento

¿Qué es? Desarrollo de un proyecto de I+D con el objeto de investigar en la aplicación de tecnologías Big Data y Open Linked Data al procesamiento lingüístico y semántico para el análisis de sentimientos


Casos de éxito de I+D

Una de las líneas de I+D+i de Paradigma Digital que le ha dado mayor retorno de inversión y visibilidad desde el comienzo de su actividad en enero de 2007 es la línea de tecnologías lingüísticas y semánticas y, en concreto, el desarrollo de tecnologías de análisis de sentimientos.

Dado el continuo crecimiento de las fuentes de información en la Web 2.0, su velocidad, variedad y volumen, ha sido necesario investigar en la evolución de las tecnologías en que se basa el motor lingüístico y semántico de Paradigma. Para esto, las tecnologías de Big Data se presentan como una solución necesaria. Sin embargo, mientras que las tecnologías de Big Data ofrecen una buena solución para el crecimiento (o escalado) vertical, es decir, en volumen de información, todavía no resuelven el problema del escalado horizontal, es decir, la variedad y diversidad de la información.

En el escalado horizontal, la iniciativa Open Linked Data ha ofrecido una solución para entrelazar y consultar información heterogénea publicada en repositorios distribuidos. En el campo del análisis de sentimientos, ambos enfoques son complementarios. Por una parte, la información proveniente de fuentes como Twitter, Facebook o la blogosfera crece en volúmenes inmanejables; por otra, es necesario desambiguar estas fuentes con los enlaces de conocimiento con autoridad como las ofrecidas por Open Linked Data.

LOD_Cloud_Diagram_as_of_September_2011 300

En este contexto, el Ministerio de Economía y Competitividad, a través del subprograma INNcorpora 2012, ha financiado la incorporación de dos tecnólogos en la compañía para el desarrollo de un proyecto de I+D con el objeto de investigar en la aplicación de tecnologías Big Data y Open Linked Data al procesamiento lingüístico y semántico para el análisis de sentimientos. La actuación presenta los siguientes objetivos específicos:

Objetivos

  • Investigar en la aplicación de tecnologías Big Data a Análisis de Sentimientos para el almacenamiento de grandes volúmenes de información. Este objetivo pretende revisar el estado del arte en Big Data y, específicamente, su aplicabilidad al análisis de sentimientos. En concreto, se evaluará su aplicación para el almacenamiento de fuentes minadas. En este objetivo se investigarán algoritmos de almacenamiento de grafos en bases de datos distribuidas NoSQL y en la definición de un modelo de información basado en grafos para análisis de sentimientos.
  • Investigar la aplicación de tecnologías Big Data para la consulta de grandes volúmenes de información. Este objetivo complementa al anterior, y se centra en investigar cómo las tecnologías Big Data pueden mejorar las consultas durante el procesamiento de análisis de sentimientos. En concreto, se explorará las capacidades que ofrecen los grafos para realizar consultas, permitiendo combinar información de relaciones sociales con la información publicada. Se analizarán lenguajes de navegación de grafos que implementen el modelo de grafos Blueprints, como Gremlin o Furnace, y su aplicabilidad al análisis de sentimientos.
  • Investigar en una interfaz semántica de Open Linked Data al Análisis de Sentimientos. En este objetivo se investiga en la aplicación de tecnologías Open Linked Data al Análisis de Sentimientos. En concreto, el trabajo tendrá el alcance de desambiguación semántica para la extracción de Entidades con Nombre (NER; Named Entity Recognition).
  • Técnicas de automatización para la transición de un modelo relacional a un modelo NoSQL. Se investigan técnicas de automatización para facilitar la transición de las fuentes de conocimiento y lingüísticas de Paradigma al nuevo modelo definido. Se investigarán algoritmos de automatización así como la aplicación de algoritmos de aprendizaje automático.

Aspectos más ‘INNovadores’

El análisis de lenguajes basados en grafos para la consulta de sentimientos es un aspecto altamente innovador, dado que presenta un paradigma diferente de consulta (y almacenamiento). Como aspecto diferenciador, pretendemos unificar la forma de representar las relaciones sociales con la información proveniente de estos enlaces, lo que nos facilitará analizar la propagación de sentimientos (y memes) en redes sociales.

El proyecto también innova en la investigación del acceso semántico a Big Data para Análisis de Sentimientos, analizando cómo ambas tecnologías, Open Linked Data y Big Data, pueden ser aplicadas en diferentes fases del análisis de sentimientos, con el fin de obtener una solución altamente escalable y distribuida.

Por último, la aplicación de técnicas de aprendizaje automático para la transformación, clasificación y enriquecimiento de las bases lingüísticas y de conocimiento de Paradigma Digital además de mejorar la productividad en la transición, permitirán desarrollar tecnologías que faciliten la incorporación de bases de datos de los clientes que usen el producto de Paradigma, reduciendo drásticamente los recursos destinados a tareas de integración.

Proyecto cofinanciado

Contrataciones y actuación financiadas por el subprograma INNcorpora Titulados Universitarios 2012 dentro del Programa Nacional de Contratación e Incorporación de RRHH del Ministerio de Economía y Competitividad. Expedientes nº INC-TU-2012-2412 e INC-TU-2012-2413.

logo-mineco_reducidoinncorpora

Somos una empresa única, radicalmente ágil tanto en nuestra organización como con nuestros desarrollos.
Hemos transformado digitalmente a más de 200 grandes compañías.