Machine Learning, la forma de hacer Big Data inteligente

Desde hace un tiempo se viene oyendo con fuerza el término Machine Learning en la industria. Cada vez las empresas están más interesadas en estas técnicas y en cómo usarlas para extraer conocimiento de sus datos y obtener una ventaja competitiva.

Dentro del universo Big Data y, concretamente, del mundo Data Science, las técnicas de Machine Learning están tomando protagonismo y van a convertirse en un elemento clave en los próximos años. Pero, ¿qué es realmente Machine Learning? ¿En qué consiste?

shutterstock_10708528_opt

¿Qué es Machine Learning?

Machine Learning es una rama dentro del campo de la Inteligencia Artificial. El término se viene manejando desde los años 50, pero ha sido en los últimos años cuando ha tomado gran relevancia gracias al enorme aumento de la capacidad de cómputo y al gran volumen de datos que las empresas empiezan a manejar.

En este sentido, lo que nos aporta es un conjunto de algoritmos catalogados como de Machine Learning o de Aprendizaje Automático cuyo objetivo es dotar a los computadores de la capacidad de aprender sin la necesidad de ser explícitamente programados.

Tradicionalmente los algoritmos se han venido clasificando en dos grandes grupos:

  • Supervised learning: Donde disponemos de un conocimiento anterior que nos puede ayudar a entender los nuevos datos que lleguen.
  • Unsupervised learning: En este caso no tenemos experiencia previa para analizar los nuevos datos, está más orientado a la búsqueda de patrones.

 

Aprendizaje supervisado

Este tipo de algoritmos se basa en que tenemos una experiencia o conocimiento previo en el que nos podemos apoyar para hacer predicciones o tomar decisiones. Por ejemplo en un sistema de control de SPAM, donde el usuario indica los correos electrónicos que son SPAM y el sistema aprende de ello para ser capaz de identificar nuevos correos de SPAM en el futuro.

Otro ejemplo podría ser un sistema de clasificación de enfermedades donde podemos basarnos en el conocimiento previo de los síntomas y características de ciertas enfermedades para que nuestro sistema aprenda y reconozca esas enfermedades en el futuro.

Para que estos algoritmos puedan funcionar correctamente debemos ser capaces de alimentarlos con un buen conjunto de datos de entrenamiento hasta conseguir el nivel de acierto que buscamos.

Algunos de los algoritmos supervisados más relevantes son:

  • Linear regression
  • Logistic regression
  • Neural networks
  • SVMs (Support Vector Machines)

Linear_regression.svg (1)

La fuente es http://scikit-learn.org/

Aprendizaje no supervisado

En el aprendizaje no supervisado no tenemos un conocimiento previo de los datos recibidos, de manera que este tipo de algoritmos tratan de buscar estructuras o patrones en los datos.

Un ejemplo de una aplicación interesante de estos algoritmos es la segmentación de clientes, donde podemos agrupar los clientes en grupos de forma automática en función de ciertas características comunes.

Otro ejemplo podría ser el análisis de relaciones en redes sociales, sacando patrones de las relaciones e interacciones entre los usuarios para detectar tendencias e influencias o comportamientos.

Por último, un ejemplo más clásico sería el análisis de datos científicos. Imaginemos un gran volumen de datos astronómicos donde no tenemos un conocimiento previo y lo que tratamos es de buscar patrones o anomalías.

Algunos de los algoritmos más representativos de aprendizaje no supervisado son:

  • K-means
  • PCA (Principal component analysis)
  • Anomaly detection

450px-Iris_Flowers_Clustering_kMeans.svg

Fuente: Wikipedia.org

Herramientas

Hoy en día tenemos multitud de frameworks y herramientas que incluyen estos y otros algoritmos de Machine Learning, preparados para ser aplicados rápidamente en problemas reales. Muchas de estas herramientas están integradas dentro de las plataformas de Big Data y orientadas a procesar de forma paralela y distribuida grandes volúmenes de datos. Algunos de los ejemplos más reseñables son:

Conclusión

Las técnicas de Machine Learning abarcan un campo muy grande, son una parte muy relevante dentro del universo Big Data y cada vez lo serán más. El número de técnicas y algoritmos es muy extenso y sigue evolucionando, las aplicaciones son inimaginables.

Sin embargo, no podemos decir que es un tema de futuro, la introducción de técnicas de Machine Learning en la toma de decisiones estratégicas, la inteligencia de negocio y las analíticas avanzadas son una obligación hoy en día si queremos mantener el nivel de competitividad de las empresas.

Manuel Zaforas es Ingeniero Superior en Informática por la UPM. Está interesado en HPC, IoT, Cloud, NoSQL, Big Data, Data Science, Machine Learning y Agile. Apoya activamente la implantación de software libre, la calidad en los procesos de desarrollo de software a través de la mejora continua y la innovación en las metodologías de desarrollo y gestión de equipos. Actualmente trabaja en Paradigma como Scrum Master y Arquitecto Software.

Ver toda la actividad de Manuel Zaforas

Recibe más artículos como este

Recibirás un email por cada nuevo artículo.. Acepto los términos legales

Escribe un comentario