¿Qué es un lago de datos?

Almacene todos sus datos en un repositorio centralizado a cualquier escala

¿Qué es un lago de datos?

Un lago de datos es un repositorio centralizado que le permite almacenar todos sus datos estructurados y no estructurados a cualquier escala. Puede almacenar sus datos sin modificarlos y sin tener que estructurarlos primero. También puede ejecutar diferentes tipos de análisis: desde paneles y visualizaciones hasta procesamiento de macrodatos, análisis en tiempo real y machine learning para tomar mejores decisiones.

AWS  Lake House

¿Por qué necesita un lago de datos?

Las organizaciones que generan valor empresarial de forma exitosa a partir de sus datos superarán a sus colegas. Una encuesta de Aberdeen notó que las organizaciones que implementaron lagos de datos superaron el nivel de rendimiento de empresas similares en un 9 % en cuanto al crecimiento orgánico de los ingresos. Estos líderes pudieron realizar nuevos tipos de análisis, como machine learning sobre nuevos orígenes, tales como archivos de registro, datos de secuencias de clics, redes sociales y dispositivos conectados a Internet almacenados en lagos de datos. Esto los ayudó a identificar oportunidades de crecimiento empresarial en menos tiempo y a actuar para aprovecharlas al atraer y retener clientes, potenciar la productividad, mantener dispositivos de manera proactiva y tomar decisiones informadas.

Lagos de datos en comparación con almacenamientos de datos: dos enfoques diferentes

Según los requisitos, una organización típica necesitará tanto un almacenamiento de datos como un lago de datos, ya que atienden diferentes necesidades y casos de uso.

Un almacenamiento de datos es una base de datos optimizada para analizar datos relacionales que provienen de sistemas transaccionales y aplicaciones de línea de negocio. La estructura y el esquema de los datos se definen con anticipación para optimizar y agilizar las consultas SQL, donde los resultados suelen usarse para informes y análisis operativos. Los datos se limpian, enriquecen y transforman para que puedan funcionar como el “único origen de información” en el que los usuarios puedan confiar.

Un lago de datos es diferente, ya que almacena datos relacionales de aplicaciones de línea de negocio y datos no relacionales de aplicaciones móviles, dispositivos de IoT y redes sociales. La estructura de los datos o el esquema no se definen cuando se capturan los datos. Esto significa que puede almacenar todos sus datos sin un diseño cuidadoso y sin saber qué preguntas tal vez tenga que responder en el futuro. Para descubrir información, se pueden utilizar diferentes tipos de análisis sobre sus datos, como consultas SQL, análisis de macrodatos, búsqueda de texto completo, análisis en tiempo real y machine learning.

A medida que las organizaciones con almacenamientos de datos reconocen los beneficios de los lagos de datos, están evolucionando su almacenamiento para incluir lagos de datos y habilitar diversas capacidades de consulta, casos de uso de ciencia de datos y capacidades avanzadas para descubrir nuevos modelos de información. Gartner denomina a esta evolución “solución de administración de datos para análisis” o “DMSA”.

Características Almacenamiento de datos Lago de datos
Datos Relacionales provenientes de sistemas transaccionales, bases de datos operativas y aplicaciones de línea de negocio No relacionales y relacionales provenientes de dispositivos de IoT, sitios web, aplicaciones móviles, redes sociales y aplicaciones corporativas
Esquema Diseñado con anterioridad a la implementación del almacenamiento de datos (esquema en escritura) Escrito al momento del análisis (esquema en lectura)
Precio/desempeño Resultados de búsqueda más rápidos con almacenamiento de mayor costo Resultados de consultas que se tornan más rápidos con almacenamiento de bajo costo
Calidad de los datos
Datos seleccionados cuidadosamente que funcionan como la versión central de la verdad Cualquier dato seleccionado o no (es decir, datos sin procesar)
Usuarios Analistas de negocios Científicos de datos, desarrolladores de datos y analistas de negocios (con datos seleccionados)
Análisis Generación de informes en lotes, inteligencia empresarial y visualizaciones Machine learning, análisis predictivo, detección de datos y creación de perfiles

Los elementos esenciales de un lago de datos y una solución de análisis

A medida que las organizaciones crean lagos de datos y una plataforma de análisis, tendrán que considerar una serie de capacidades clave, entre las cuales se incluyen las siguientes:

Migración de datos

Los lagos de datos le permiten importar cualquier cantidad de datos que pueda ingresar en tiempo real. Los datos se recopilan de múltiples orígenes y se transfieren al lago de datos en su formato original. Este proceso le permite escalar hasta alcanzar cualquier volumen de datos, a la vez que ahorra tiempo en la definición de estructuras de datos, esquemas y transformaciones.

Almacenamiento seguro y catalogación de los datos

Los lagos de datos le permiten almacenar datos relacionales, como los que surgen de bases de datos operativas y datos de aplicaciones de línea de negocio; y datos no relacionales, como los provenientes de aplicaciones móviles, dispositivos de IoT y redes sociales. También le brindan la capacidad de comprender qué datos hay en el lago a través del rastreo, la catalogación y la indexación de datos. Finalmente, los datos deben estar seguros para garantizar que sus activos de datos estén protegidos.

Análisis

Los lagos de datos permiten a distintos roles en su organización, como científicos de datos, desarrolladores de datos y analistas de negocios, acceder a los datos con las herramientas y los marcos de análisis que prefieran. Esto incluye marcos de código abierto, como Apache Hadoop, Presto y Apache Spark, además de ofertas comerciales de proveedores de almacenamiento de datos e inteligencia empresarial. Los lagos de datos le permiten ejecutar análisis sin tener que transferir sus datos a un sistema de análisis independiente.

Machine learning

Los lagos de datos permitirán a las organizaciones generar diferentes tipos de información, lo que incluye generar informes de datos históricos, aplicar machine learning donde se crean los modelos para predecir posibles resultados y sugerir un rango de acciones recomendadas para lograr el mejor resultado posible.

El valor del lago de datos

La habilidad de aprovechar más datos, de más orígenes, en menos tiempo y capacitando a los usuarios para que colaboren y analicen los datos de diferentes maneras permite tomar decisiones mejores y en menos tiempo. Algunos ejemplos en los cuales los lagos de datos han aportado valor son los siguientes:

Mejores interacciones con los clientes

Un lago de datos puede combinar los datos de clientes de una plataforma de administración de la relación con los clientes (CRM) con los análisis de redes sociales, una plataforma de marketing que incluya un historial de compras y los tickets de incidentes para que la empresa pueda comprender a la cohorte de clientes más rentable, la causa de la pérdida de clientes y las promociones o las recompensas que aumentarán la fidelidad.

Mejora de las opciones de innovación en investigación y desarrollo

Un lago de datos puede ayudar a sus equipos de Investigación y Desarrollo a probar sus hipótesis, ajustar las suposiciones y evaluar los resultados, como elegir los materiales correctos en el diseño de su producto que da lugar a un desempeño más rápido, realizar una investigación genómica que conduzca a una medicación más eficaz o comprender la disposición de los clientes a pagar por diferentes atributos.

Mejora en la eficiencia operativa

El Internet de las cosas (IoT) introduce más formas de recopilar datos en procesos como la fabricación, con datos en tiempo real provenientes de dispositivos conectados a Internet. Un lago de datos facilita el almacenamiento y la ejecución de análisis sobre datos de IoT generados por máquinas para descubrir maneras de reducir los costos operativos e incrementar la calidad.  

Los desafíos de los lagos de datos

El principal desafío de una arquitectura de lago de datos es que los datos sin procesar se almacenen sin supervisión de los contenidos. Para que un lago de datos habilite el uso de los datos, debe contar con mecanismos definidos para catalogar y proteger los datos. Sin esos elementos, no se pueden encontrar los datos ni se puede confiar en ellos, lo que resulta en un “pantano de datos”. Para satisfacer las necesidades de audiencias más amplias, los lagos de datos deben tener gobernanza, coherencia semántica y controles de acceso.

 

Implementación de lagos de datos en la nube

Los lagos de datos son una carga de trabajo ideal para implementar en la nube porque la nube proporciona rendimiento, escalabilidad, fiabilidad, disponibilidad, un diverso conjunto de motores analíticos y economías de escala masivas. La investigación de ESG demostró que el 39 % de los encuestados consideraban a la nube como su implementación primaria para análisis, el 41 % para almacenamientos de datos y el 43 % para Spark. Las principales razones por las que los clientes consideraron a la nube como una ventaja para los lagos de datos es que tienen mejor seguridad, tiempos más rápidos de implementación, mejor disponibilidad, actualizaciones de características o funcionalidades más frecuentes, más elasticidad, mayor cobertura geográfica y costos vinculados a la utilización real.

 

Creación de lagos de datos propios en la nube de AWS

AWS ofrece la cartera de servicios más segura, escalable, completa y rentable que permite a los clientes crear lagos de datos en la nube y analizar la totalidad de los datos, incluidos aquellos provenientes de dispositivos de IoT, con una variedad de estrategias analíticas que incluyen el machine learning. Como resultado, hay más organizaciones que ejecutan sus lagos de datos y análisis en AWS que en cualquier otro lado, con diferentes clientes, como NETFLIX, Zillow, NASDAQ, Yelp, iRobot y FINRA, que confían en AWS para ejecutar las cargas de trabajo de análisis fundamentales para sus empresas. Obtenga más información.

Más recursos sobre el lago de datos

Obtenga más información sobre los lagos de datos de los analistas del sector.

Comience a utilizar AWS

Step 1 - Sign up for an Amazon Web Services account

Regístrese para obtener una cuenta de AWS

Obtenga acceso instantáneo a la capa gratuita de AWS

Cree un lago de datos seguro en cuestión de días

Lea más información sobre AWS Lake Formation

Comience a crear con AWS