¡Hemos llegado al episodio 100 en nuestro podcast “Cómo conocí a nuestro cloud”!

Una cifra redonda que nos llena de orgullo y que no muchos podcasts alcanzan. Para celebrar este hito, hemos decidido hacer algo especial: volver al origen. Retrocedemos cinco años para revisitar el tema de nuestro primerísimo episodio y ver cuánto ha cambiado el panorama desde entonces, y para ello contamos con la compañía de Andrés Navidad, uno de nuestros invitados en aquel debut.

De aquellas, el gran debate en el mundo de los datos en Google Cloud giraba en torno a dos gigantes: Dataflow y Dataproc. ¿Cuándo usar uno sobre el otro?

Cinco años después, la primera pregunta es obligada: ¿sigue vigente este debate? La respuesta, como entonces, es que no se trata de una competición. Ambas herramientas, diseñadas para el procesamiento masivo de datos (Dataproc como servicio gestionado para clústeres Hadoop y Spark, y Dataflow como la solución serverless basada en Apache Beam) siguen siendo increíblemente potentes y relevantes, pero la elección depende de las necesidades específicas de cada proyecto.

Lejos de quedar obsoletos, ambos servicios han evolucionado. Aunque no han sido los que más novedades han recibido, su importancia es capital en el ecosistema de Google Cloud.

Dataproc, por ejemplo, ha incorporado un modo de ejecución serverless que simplifica el lanzamiento de procesos Spark. Por su parte, Dataflow se ha consolidado como la base sobre la que se construyen otros servicios fundamentales como Datastream o Database Migration Service, convirtiéndose en un pilar silencioso, pero indispensable de la plataforma.

Sin embargo, el cambio más significativo en estos cinco años ha sido la irrupción de un tercer protagonista que ha redefinido las reglas del juego: BigQuery.

Lo que era un data warehouse se ha convertido en el "agujero negro" de Google Cloud, atrayendo e integrando funcionalidades de toda la plataforma. Ahora, desde BigQuery puedes ejecutar procesos de Spark, utilizar modelos de machine learning con simple SQL e incluso interactuar con Gemini.

Esta centralidad ha impulsado un cambio de paradigma, fomentando que las transformaciones de datos se realicen directamente dentro de BigQuery, simplificando las arquitecturas.

El ecosistema de datos ha madurado, y aunque los retos fundamentales como la gobernanza, la calidad y la trazabilidad siguen siendo los mismos, las herramientas para abordarlos son más potentes y accesibles.

¿Tiene sentido para una empresa que empieza hoy en la nube aprender a usar Spark o Dataflow, o puede cubrir el 80% de sus necesidades directamente con BigQuery?

Descubre cómo ha cambiado el mundo del dato en este episodio de aniversario de "Cómo conocí a nuestro cloud". ¡No te lo pierdas!

Cuéntanos qué te parece.

Los comentarios serán moderados. Serán visibles si aportan un argumento constructivo. Si no estás de acuerdo con algún punto, por favor, muestra tus opiniones de manera educada.

Suscríbete