Resulta asombroso el rápido y constante incremento en la cantidad, variedad y velocidad de los datos que se generan hoy en día. Esta es la base que sustenta el negocio de la mayoría de las empresas; esta fuerte digitalización es su fuente de competitividad.

Si una empresa quiere satisfacer las exigencias de sus clientes ofreciendo una experiencia personalizada en el momento, si quiere responder a sus clientes de inmediato o si desea entregar sus productos o servicios lo antes posible debe poder analizar sus datos en Real Time.

Tanto si quiere tener una visión única del negocio como del cliente debe poder consolidar sus datos en Real Time. Es lo que le va a permitir conocer los gustos y necesidades de sus usuarios, saber qué ocurre en cada momento y poder tomar decisiones.

Si una empresa quiere modernizar su tecnología evitando los errores más comunes mientras mantiene el control sobre todos sus procesos y sobre el roadmap y la estrategia de dicha modernización, debe integrar el ecosistema IT de su organización en Real Time.

Y para mejorar su seguridad hoy en día, reduciendo el tiempo necesario para detectar ataques y problemas y responder a ellos, también debe abordar la ciberseguridad con un enfoque Real Time.

En definitiva, cualquier organización que quiera mejorar su agilidad y adaptabilidad está abocada a hacer un uso intensivo de eventos/mensajes. Y en ese escenario resulta fundamental la gobernanza de los streams.

¿Qué es la gobernanza de datos?

La gobernanza de datos tiene como objetivo administrar la disponibilidad, la integridad y la seguridad de los datos utilizados en una organización. Con la explosión en el volumen y la variedad y la velocidad de los datos que se generan actualmente, no sorprende que la gestión de esos datos se haya vuelto primordial para el éxito de las empresas en todo el mundo. El gobierno de datos es obligatorio e imprescindible.

Al igual que otras disciplinas, el gobierno de datos se apoya en el trípode compuesto por Personas, Procesos y Tecnología.

Los dos primeros, las Personas y los Procesos, se pueden y deben adaptar y adecuar. Pero con la tecnología es distinto, las antiguas herramientas para el gobierno de datos han quedado obsoletas para el gobierno de streams, ya que la complejidad se ha elevado a un nivel completamente nuevo.

¿Cómo se gobiernan los streams?

Para facilitar el gobierno de datos dentro de los streams, Confluent proporciona su herramienta de Stream Governance, que nos aporta funcionalidades en tres pilares clave:

Reto #1

Existen muchos retos en la gobernanza de datos, pero el primero es abordar la falta de visibilidad en nuestros datos, identificando y clasificando todos los datos que existen dentro de nuestra organización. Si los desconocemos o no somos conscientes de todos ellos, difícilmente los vamos a poder gobernar.

Para esto utilizaremos el Catálogo de Streams. Disponible tanto a través de la consola cloud como del API, es una biblioteca centralizada y organizada, diseñada para compartir, buscar y entender los datos entre los diferentes proyectos y equipos.

Permite buscar datos y esquemas por su nombre, por nombres de los campos o por tags y aplicar múltiples filtros a la búsqueda para, por ejemplo, filtrar por esquemas, por topics o por entornos. Sobre los resultados obtenidos podremos navegar directamente a cada entidad para ver sus detalles.

Con esta herramienta también podemos crear y aplicar tags y metadatos de negocio a nuestros datos para que estén mejor clasificados y organizados.

Reto #2

Otro reto a abordar es la falta de seguridad de los datos en movimiento. A medida que crecen las inversiones en microservicios y escalan las fuentes de datos, aumentan rápidamente los datos en tiempo real y se hace cada vez más complicado comprender o controlar los streams que fluyen por la organización.

A diferencia de los datos en reposo, los datos en movimiento están expuestos a multitud de riesgos porque se suelen transferir hacia dentro o hacia fuera de la empresa. Además, existen muchas normativas regulatorias que exigen reforzar la protección de estos datos.

Para dar respuesta a estas necesidades de aplicaciones críticas y aportar en el ámbito regulatorio y normativo, Stream Governance proporciona el Linaje de Streams para obtener una visión global de los datos en movimiento.

Mediante una interfaz gráfica de los streams de eventos y las relaciones entre los datos se consigue tanto una visión de alto nivel como un examen a fondo de los mismos para saber de dónde vienen los datos, a dónde van y cómo, cuándo y dónde se transforman.

Los gráficos de linaje muestran el movimiento de los datos entre origen y destino y cómo se transforman durante los últimos 10 minutos. Permite seleccionar el clúster, el topic, la tabla o stream ksqlDB, el productor, el consumidor o el conector que se desee visualizar.

Sobre el gráfico se puede obtener una vista en detalle de cada uno de los nodos, donde se mostrará, de forma general, su descripción y la tasa de transferencia de cada nodo.

En los nodos de tipo topic mostrará también el nombre del topic, el formato del esquema (Avro, Protobuf o JSON) y el número de particiones. También se puede ver información de cada uno de los flujos que conectan los nodos. E incluso se pueden examinar a fondo los mensajes transmitidos, los esquemas utilizados o las queries ejecutadas.

Reto #3

Resulta muy habitual que diferentes equipos compartan la misma implementación de los datos. Y es muy común que accedan a datos de una misma aplicación compartiendo la misma infraestructura de datos, usando los mismos workflows o realizando tareas sobre los mismos datos a pesar de tener objetivos diferentes.

Para resolver estas necesidades Stream Governance aporta varias herramientas para facilitar la Calidad en la Transmisión.

Estas herramientas permiten a los equipos proporcionar flujos de eventos escalables y fiables de manera que den servicio a aplicaciones críticas, se puedan tomar decisiones seguras y diseñar estándares de datos simplificados.

Sirven para establecer y controlar reglas y definiciones de datos que determinen qué datos entran y cuáles no para garantizar la máxima integridad de los mismos.

Engloba las siguientes herramientas:

Beneficios del gobierno de datos

Aunque a veces se le pueda restar importancia al gobierno de datos, resulta fundamental para la fiabilidad de nuestros análisis de datos, la solidez de nuestros procesos de negocio y para poder tomar decisiones basadas en datos que resulten válidas.

A nivel de IT permite supervisar adecuadamente la gestión de las fuentes de datos y cumplir con los requisitos regulatorios necesarios. Un gobierno de datos fiable también beneficiará al resto de áreas de negocio de una organización, ya que podrán localizar al instante los datos que necesitan y harán mejor su trabajo.

Gobernar datos en reposo (como los de una base de datos, por ejemplo) tampoco era sencillo al principio, pero con el paso de los años aparecieron herramientas tecnológicas adecuadas y las personas y los procesos se fueron adaptando. Pero esas herramientas no sirven para gobernar datos en movimiento.

Afortunadamente, Confluent ha cubierto este vacío con sus herramientas de Stream Governance para resolver los retos más habituales. Ahora resulta mucho más sencillo lidiar con este gran desafío en el que los datos se transmiten en Real Time, en forma de streams, entre múltiples orígenes y destinos, a lo largo de diferentes entornos y aplicaciones.

Cuéntanos qué te parece.

Los comentarios serán moderados. Serán visibles si aportan un argumento constructivo. Si no estás de acuerdo con algún punto, por favor, muestra tus opiniones de manera educada.

Suscríbete

Estamos comprometidos.

Tecnología, personas e impacto positivo.