TRANSFORMACIÓN
Al
realizar la extracción, la identificación de las fuentes de datos puede tener
un aspecto parecido al siguiente, en herramientas ETL como TALEND OPEN STUDIO o
PENTAHO DATA
INTEGRATION.
Extraer consiste en entender las reglas de negocio que regulan la información, para poder
navegar entre las fuentes de datos y mediante facilidades gráficas como:
arrastrar y soltar; colocar sobre un lienzo los objetos que representan una
conexión específica a la fuente de datos y enlazarlos mediante relaciones o
flujos representados por líneas que encierran las referencias a los datos por extraer. Identificar el flujo de la información es
importante, ello facilita el entendimiento de cada repositorio y su afectación
al implementar un SIN. El
enfrentarse a diversas problemáticas de negocio y modelos; permite ir generando
las habilidades necesarias para emplear efectivamente las herramientas ETL, de
tal manera que las fuentes y los destinos de los datos sean enlazados de forma
coherente.
La etapa
de transformación ocurre precisamente una vez que se han extraído los datos y
colocado en las tablas de destino, siendo la primera actividad verificar que se
cumplen las pautas o estructuras que se han definido en el análisis. De no ser
así los datos deben ser rechazados o depurados. Esta fase de transformación aplica una serie
de reglas de negocio o funciones sobre los datos extraídos para convertirlos en
datos que serán cargados en el DWA, en ese paso intermedio interviene el área
de Staging. El data profiling, es el soporte indispensable de la transformación y
consiste en:
- Emplear métodos analíticos que revisan los datos para obtener una comprensión completa de su contenido, estructura y calidad
- Identificar inconsistencias, eliminar información "basura" de determinados campos, corregir valores corruptos, revisar errores manualmente para decidir como corregirlos
- Determinar si el proyecto debe reprogramarse (cambios en el alcance, cambios en cronogramas), para ello deben detectarse problemas que no se puedan resolver en el corto plazo y analizar la situación caso por caso
No suele
ser muy tomado en cuenta, pero no deja de ser importante al tratarse de el
transporte de datos; el haber configurado con la suficiente antelación los
entornos informáticos donde se desplegará el sistema de Inteligencia de
Negocios, el cumplir con las normativas de seguridad organizacionales, el contar
con las autorizaciones explicitas para el acceso a la información y cumplir con
lo exigido por entes de control superiores (por ejemplo Leyes de Protección de
Datos) .
MODELADO
Es parte
de la transformación, se trabaja en él desde el inicio de un proyecto para
implementar un SIN, con participación de analistas con habilidad en el uso de
herramientas informáticas de modelado de bases de datos analíticas, con
experiencia en DWA y conocedores del negocio de la organización. Sin el modelado de datos del DWA no hay
Sistema de Inteligencia de Negocios, este paso es requisito indispensable para realizar
la extracción y carga.
Las
herramientas más populares para modelado suelen estar incorporadas en los
sistemas que permiten la explotación del Sistema de Inteligencia de Negocios,
ya que la tendencia actual es conformar entornos o ecosistemas que brindan
soluciones integrales, la mayoría de fabricantes con experiencia, dotan a sus
clientes de herramientas que les permitan atender cada etapa en un proyecto de
Inteligencia de Negocios (Modelado, ETL, Explotación).
Pero, ¿Qué es el
modelado?. Consiste
en representar gráficamente lo que se almacena en el repositorio y cómo se
gestiona dicho almacén. Es definir las
estructuras de datos en las bases de datos Staging, DWA y Data Mart, de tal
forma que se logre organizar gran cantidad de información proveniente de los sistemas transaccionales,
siguiendo las reglas del negocio para que los datos puedan ser presentados por
los sistemas de explotación (cuadros de mando, reportes dinámicos, gráficas,
informes ejecutivos, análisis en línea, análisis predictivos, minería de
datos), como muestra el esquema típico de una solución BI de las partes I o II.
El
modelado se divide en dos partes, una independiente de la tecnología denominada
Modelado Lógico (puede hacerse en un procesador de palabras,
una hoja electrónica o una simple hoja de papel) y el Modelado Físico que consiste en la implementación mediante software
de las estructuras de datos que almacenarán la información, las cuales fueron
identificadas en el modelado lógico.
Para
quien ha realizado modelos entidad-relación esto no es ninguna novedad, sin
embargo los modelos de datos de un Sistema de Inteligencia de Negocios, guardan
sus diferencias respecto a los modelos de datos transaccionales. Antes de empezar se debe conocer que el
modelo contendrá únicamente dos tipos de tablas: las de hechos y las de dimensión.
HECHOS
Son
aquello que se desea analizar:
- Representan medidas del Negocio: Número de expedientes, compras, ventas, etc
- La identificación de hechos y sus dimensiones asociadas permite controlar diferentes niveles de granularidad, esto quiere decir que se puede agrupar los datos en intervalos mas grandes o más pequeños conforme a necesidad y darle al análisis diferentes niveles de vista de la información, por ejemplo: ventas diarias, ventas semanales, ventas mensuales, ventas trimestrales
- Se implementan mediante muchos registros y pocas columnas
- Suelen agregar valores numéricos
DIMENSIONES
Representan
lo que se quiere describir y contienen los datos que permiten restringir y agrupar
los datos contenidos en la tabla de Hechos asociada:
- Se aproximan al concepto de “Datos Maestros” en un sistema operacional
- Son descriptores del negocio
- Implementan jerarquías
- Suelen tener muchas columnas, pocos registros
Un concepto al que está
relacionada una tabla de dimensión es la jerarquía, incorpora diferentes
columnas que permiten establecer una clasificación específica de los datos de
la tabla de Hechos, por ejemplo:
- Localización geográfica identificada por país, región, provincia, ciudad, barrio
- Intervalos de tiempo como día, semana, mes, trimestre, semestre, año
- Categoría de un producto como familia , clase, subclase
MODELADO
LÓGICO
Representa el esquema de lo
que se almacena en el repositorio de datos identificando los elementos de información y su relación con el
negocio. Está formado por los hechos por
ejemplo cantidades, totales facturados u otros que son las medidas del negocio,
atributos que representan el cuándo, quién, qué; es decir describen el contexto
de los hechos y las relaciones entre los atributos. A tomar en cuenta en un modelo lógico:
- Representa el esquema de qué se almacena en el repositorio: elementos de información y su relación con el negocio
- Modelo de datos: definición, características y relaciones
- Se concibe a nivel de negocio o conceptual
- Es independiente de la tecnología de almacenamiento
- Está orientado al usuario final
- Los componentes del modelo lógico son:
- Hechos(facts): medidas de negocio (cantidad, importe, saldo, suma, media, …)
- Atributos: describen el contexto del hechos (cuándo, quién, qué, ámbito, …).
- Agregaciones (sumas, medias, máximo, mínimo, …)
- Relaciones, cardinalidad y jerarquías entre atributos
MODELADO FISICO
Representa el esquema de cómo
se almacena la información en el repositorio informacional. El modelo se
compone de columnas y tablas. Se trata de la manifestación física del modelo
lógico de datos en tablas de bases de datos y claves foráneas. Los esquemas de
modelado pueden ser de tres tipos: Modelo en estrella, modelo en copo de nieve
y modelo en constelación de estrellas.
EJEMPLOS
DE MODELADO
Modelo en Estrella
- Una sola tabla de hechos
- Una sola tabla para cada dimensión
Modelo en Copo de Nieve
- Una sola tabla de hechos
- Varias tablas de dimensiones normalizadas
Modelo en Constelación de Estrellas
(modelo mixto)
- Varias tablas de hechos
- Comparten dimensiones
MAS
EJEMPLOS
IMPLEMENTACIÓN
FÍSICA DE MODELOS EN BASES DE DATOS
MOLAP:
OLAP Multidimensional
1. Datos
pre-calculados
2. Almacenados en cubos de dimensiones
ROLAP:
OLAP Relacional.
1. Funcionalidad
similar a MOLAP
2. Basada
en bases de datos relacionales
HOLAP:
OLAP Hibrido
1. Se
accede a ROLAP desde MOLAP
CBAT:
Column Based Analytical Technology
1. Datos
almacenados en columnas
2. Cálculos
realizados on-line o precalculados

El cambio de paradigma hacia organizar la información en columnas se emplea con la finalidad de reducir considerablemente el tiempo de consulta sobre grandes volúmenes de información y es el resultado que los fabricantes de software analítico innovador dan al problema de costo y rendimiento, al intentar recuperar datos que se encuentran insertos en gigantescos cúmulos de almacenamiento.
En la siguiente entrega se revisaran las herramientas de explotación y se plantearán sugerencias para proyectos de Inteligencia de Negocios.
| Visón General | Parte I | Parte II | Parte III | Parte IV | Parte V |
| Visón General | Parte I | Parte II | Parte III | Parte IV | Parte V |
Great blog. All posts have something to learn. Your work is very good and I appreciate you and hopping for some more informative posts. Capacitaciones Qlik ecuador
ResponderEliminar