Un data warehouse es un repositorio centralizado donde se almacenan todos los datos que recogen los diversos sistemas de una empresa. Este puede ser físico o lógico y hace hincapié en la captura de datos de diversas fuentes para fines analíticos.
Un data warehouse se aloja en un servidor o en la nube. Luego los datos almacenados se extraen selectivamente para su uso en analíticas y de consultas.
¿Cómo funciona un Data Warehouse?
Un data warehouse funciona como su nombre indica, un almacenamiento de datos, que recibe toda la información que proviene de una o varias fuentes y analizarlos, con el fin de recuperar información valiosas para una empresa.
Una vez que los datos se integran en el warehouse, son tratados, transformados y clasificados. Esto permite a los usuarios acceder a ellos con la ayuda de herramientas de clientes SQL, de Business Intelligence, de tablas.
La información procesada de manera organizada en un mismo lugar, da a las empresas, la posibilidad de tener una visión de quiénes son sus clientes, sus hábitos de consumo y otra gran cantidad de datos cruciales que beneficiarán al negocio.
Los data warehouse hacen posible el Data Mining que consiste en buscar tendencias y patrones en los datos recolectados que nos sirven de guía y apoyo para los procesos de marketing.
El Data Mining permite el tratamiento y análisis de los datos almacenados para transformarlos en informaciones útiles, y hacerlos accesibles para los usuarios.
Tipos de Data Warehouse
Existen tres tipos de data warehouse.
- Los Data Warehouse de Empresas, EDW, que son depósitos de datos centralizados. Estos datos son organizados y presentados de manera uniforme o según el tema.
- Data Stores Operacionales, ODS, donde los datos se actualizan en tiempo real, haciéndolos muy útiles para actividades cotidianas como los registros de informes y de empleados.
- Data Mart, subcategoría de Data Warehouse que está concebida para empresas de sectores de la venta o las finanzas.
Componentes de un Data Warehouse
Los data warehouse tienen diferentes componentes, entre ellos:
El Load Manager
Permite la extracción y carga de datos hacia el depósito. También se encarga de la transformación de datos.
Warehouse Manager
Se ocupa de la gestión de datos dentro del depósito; asegura su consistencia, fusiona datos de diversas fuentes, crea índices, la forma de visualizarlos y su archivado.
Administrador de Búsquedas
Es el responsable de las operaciones de gestión de búsquedas; orienta a los hacia las tablas apropiadas.
Herramientas de Acceso
Permiten a los usuarios finales interactuar con el data warehouse. Estas herramientas pueden ser de reportes, de búsqueda, de desarrollo de aplicaciones o de exploración de datos.
¿Quién utiliza Data Warehouse?
Los data warehouse son muy prácticos en todos los sectores de actividad. Sin embargo, son utilizados de formas muy diferentes, cada uno adaptado a las necesidades de la industria.
Los data warehouse son utilizados por las empresas que manejan grandes volúmenes de datos y por quienes desean acceder con mayor facilidad a sus datos.
Empresas que necesitan asistencia para la toma de decisiones, basadas en los datos almacenados y usuarios que buscan gestionar informes, gráficos y diagramas a partir de datos almacenados.
Como ejemplo podemos mencionar:
Aeronáutica: Para analizar la rentabilidad de los trayectos, o para proponer promociones personalizadas.
Banca: Realizar estudios de mercado o para analizar el desempeño de sus productos.
Salud: Permiten predecir los resultados de un tratamiento, producir informes sobre pacientes, compartir datos con las compañías de seguros.
Sector Público: Recolectar datos, analizar los informes sobre los impuestos o las políticas de salud.
Aseguradoras: Para analizar las tendencias del mercado, comportamiento de los clientes y asegurados, siniestros.
Cadenas de negocios: Para mejorar la distribución, marketing, inventario, logística, comprender los hábitos de consumo, conocer a sus consumidores, optimizar precios, idear campañas publicitarias.
Telecomunicaciones: La venta y distribución de sus servicios se basan sobre los datos recolectados.
Turismo y hotelería: Las promociones pueden ser basadas sobre las preferencias y los hábitos de los viajeros.
Ventajas y desventajas
Gracias a esta herramienta, se puede acceder a información coherente y actualizada de todas las actividades de la empresa. Permiten hacer búsquedas de información.
Reduce el tiempo de análisis de datos y la producción de informes. Los usuarios pueden analizar diferentes periodos temporales para realizar predicciones futuras.
No obstante, los data warehouses presentan también inconvenientes, no es la mejor solución para los datos no estructurados.
La creación e implementación de depósitos de datos llevan tiempo y requieren de mucho trabajo, por lo que un Warehouse puede rápidamente volverse obsoleto.
Para implementar el Warehousing en la empresa, va a ser igualmente necesario capacitar a sus empleados para el uso. Esto sería una inversión bastante significativa, por lo que es importante conocer y sopesar las ventajas y desventajas antes de decidir su utilización.
Se debe además considerar que los datos de un warehouse deben almacenarse de forma segura, fiable, fácil de recuperar y fácil de administrar.
Antecedentes
William H. Inmon, es conocido como el padre de Data Warehousing. Inmon describió un data warehouse como “Una colección de datos orientada a un tema específico, integrado, variante en el tiempo y no volátil, que soporta el proceso de toma de decisiones”
El concepto de Data Mart para comercios minoristas fue introducido por primera vez en 1970 por Nielsen y IRI.
En 1983, Teradata lanza un sistema de gestión de bases de datos para asistir en la toma de decisiones, y a finales de los años 80, sale al mercado la primera data warehouse empresarial, desarrollada por Paul Murphy y Barry Devlin de IBM.
Pasado y presente del Data Warehouse
Los primeros data warehouse utilizaban datos repetitivos estructurados que eran filtrados antes de entrar al warehouse; no permitían ser mezclados y emparejados con datos textuales no estructurados.
El data warehouse ha evolucionado permitiendo ingresar mayor información que se puede adjuntar a los datos no estructurados como los comentarios en una encuesta, correos electrónicos y conversaciones, por mencionar algunas que se tratan de forma diferente a las repetitivas y que dan contexto a los datos estructurados.
Es importante señalar que en muchos casos, el contexto de los datos no repetitivos es más importante que los datos en sí que no pueden utilizarse para la toma de decisiones hasta que se haya establecido el contexto.
La tecnología avanza a pasos agigantados, las computadoras son cada vez más rápidas y sus programas y aplicaciones más complejos y el volumen de datos que maneja es infinito. Por esta razón, los data warehouse se volvieron indispensables.