Crónica PyData Madrid 2016

En los últimos años el volumen de información generado y almacenado por las empresas ha crecido de manera exponencial. Hasta el punto de que hasta el año 2003, la Humanidad ha generado una cantidad de datos equivalente a 5 Exabytes, una información que actualmente se genera cada dos días. Un crecimiento que se supera enormemente año tras año. Esta generación masiva de información ha desembocado en un inmenso mar de datos a los que, a priori, no se les estaba sacando ningún partido más allá de las propias aplicaciones que los generaron. Hoy en día Big Data está presente en todas partes y la cantidad de información obtenida de redes sociales, dispositivos móviles, aplicaciones de usuarios y sistemas transaccionales es enorme y su tratamiento y análisis es una obligación para las compañías, lo que ha dado lugar a una nueva disciplina: la ciencia de los datos o data science.

Alrededor de estas necesidades surge una serie de tecnologías, de la mano de técnicas estadísticas, de minería de datos, analítica avanzada, Big Data, machine learning y otras técnicas que se adaptan y evolucionan para afrontar problemas partiendo de grandes volúmenes de datos. Este tema está cobrando cada vez más relevancia y por eso surgen eventos como PyData, celebrado este año por primera vez en Madrid, que pretenden profundizar en la problemática del tratamiento y análisis de los datos.

pydata-1

Primera PyData Madrid

El sábado algunos miembros de Paradigma acudimos a la cita que teníamos marcada en nuestro calendario. Es la primera convención de Python orientada al mundo del Big Data. El objetivo para algunos era formarse para su día a día profesional esperando encontrar otros enfoques y novedades o simplemente comunicación con la comunidad; para otros, la idea era iniciarse en este basto mundo aún por explorar.

pydata-2

El evento se celebró en su mayoría en Campus Madrid, emplazamiento muy cómodo tanto por su localización como por sus instalaciones, que permiten desde atender a las charlas cómodamente en un sofá, hasta desconectar unos minutos trabajando desde un puff. Algunas de las charlas más interesantes a las que pudimos asistir fueron las siguientes:

    • Christine Doig en su charla “A Hitchhiker’s Guide to Data Science” abrió el telón, presentando un stack de herramientas para iniciarse en el ecosistema de data science de la mano de Python. Fue un certero punto de partida para que los asistentes empezaran a dejar brotar la curiosidad por este mundo.
    • Marc García es un apasionado de los algoritmos de aprendizaje. Nos habló sobre los random forests, una modificación de los algoritmos de bagging sobre árboles de decisión, que dan gran resultado para tareas de clasificación y regresión.
    • Juan Luis Cano, un fijo de los eventos pythonicos que no podía faltar a la primera PyData y que nos habló del entorno que nos ofrece conda y anaconda y como está simplificando la vida a muchos usuarios.
    • Manuel Garrido, nos habló sobre cómo montar sistema de recomendación usando Pandas y Numpy. Fue una charla muy práctica con ejemplos desde cero y nos explicó cuales eran las mejores prácticas según se tenga información de los usuarios o bien éstos sean nuevos . Tanto la presentación como los datos que utilizó se pueden encontrar en GitHub.
    • Jose Manuel Ortega popular hacker en eventos de Python a nivel nacional, hizo un repaso de las principales herramientas para hacer webscrapping, Selenium, Mechanize, PhantomJS, Robobrowser y por supuesto Scrapy, así como de librerías de utilidad para este fin.
    • Tomás Gómez
    • Pablo Manuel García trabaja en la empresa Blue Telecom Consulting y nos habló de un sistema de monitorización para entornos productivos, capaces de detectar anomalías según ciertas métricas. De esta manera, la monitorización no sólo se centra en si los sistemas están on-line, sino también en la generación de alarmas si, por ejemplo, el número de ventas online de un producto es muy inferior al esperado en condiciones normales. Esto puede esconder algún mal funcionamiento en tu plataforma.
    • Antònia Tugores nos habló sobre una parte de su trabajo, la investigación de cómo está relacionado el turismo de ocio entre diferentes países, encontrando resultados.
    • Francesc Alted, que nos ofreció una brillante keynote para empezar el domingo con fuerza, donde hicimos un repaso a la evolución de las arquitecturas de computadores y cómo la compresión a través de herramientas como bcolz o blosc va a tener una gran importancia en el futuro.
    • Jaime Fernández, desarrollador en Google, nos estuvo hablando de temas muy específicos de NumPy, en concreto del particular método que tiene este paquete a la hora de trabajar con los índices.

pydata-3

En este tipo de charlas es habitual que tanto los asistentes como los ponentes hagan una intervención rápida (lightning talks) de unos 5 minutos para exponer un tema concreto o explicar un ejemplo práctico. Este año la comunidad fue bastante activa, y hubo varias de estas charlas donde pudimos ver desde un mapa mundial para controlar los sistemas públicos y privados de alquiler de bicicletas o cómo simular el envío de nuestro cohete a Marte.

Conclusión

Nuestra experiencia en la primera PyData de Madrid fue muy positiva. Se agradeció la diversidad y el gran nivel de los ponentes, que expusieron diferentes técnicas y soluciones para el procesado, análisis y visualización de datos, lo que fue muy enriquecedor para todos los que asistimos al evento. También nos alegra que conferencias que aborden esta temática y que se llevan celebrando en otras ciudades de EEUU y Europa desde hace ya algunos años, lleguen por fin a España. Eso significa que la brecha tecnológica entre los dos lados del océano es cada vez más pequeña.

Estamos convencidos de que eventos como este serán cada vez más frecuentes en nuestro país dada la importancia y el interés, no sólo para la comunidad y las empresas del sector, sino para todas aquellas compañías que quieran situarse en un punto de referencia a nivel tecnológico. Esperemos que sea la primera PyData Madrid de muchas, porque sin duda repetiremos la experiencia.

Manuel Zaforas es Ingeniero Superior en Informática por la UPM. Está interesado en HPC, IoT, Cloud, NoSQL, Big Data, Data Science, Machine Learning y Agile. Apoya activamente la implantación de software libre, la calidad en los procesos de desarrollo de software a través de la mejora continua y la innovación en las metodologías de desarrollo y gestión de equipos. Actualmente trabaja en Paradigma como Scrum Master y Arquitecto Software.

Ver toda la actividad de Manuel Zaforas

Profesional que ha participado en la creación de productos digitales para diferentes sectores en diferentes sitios de Europa: desde el desarrollo de software para la optimización de estructuras aeronáuticas hasta proyectos de investigación sobre las interacciones neuronales en la corteza cerebral, trabajando en equipos multiculturales y multidisciplinares. Actualmente forma parte de Paradigma, dedicado a la definición técnica de productos en el sector de las telecomunicaciones.

Ver toda la actividad de Jaime Fernández Martín

Soy un apasionado de la tecnología, los productos digitales, el desarrollo de Internet y la música. Ingeniero de software, me gusta investigar y probar todas las tecnologías. Me gusta seguir los estándares de clean code, buenas prácticas de programación y nuevas metodologías de trabajo. Admiro y busco la creatividad en nuevas tecnologías y diferentes enfoques en aquellos campos en los que se pueda aplicar.

Ver toda la actividad de Álvaro León

Recibe más artículos como este

Recibirás un email por cada nuevo artículo.. Acepto los términos legales

Escribe un comentario