Datos personales

Mi foto
Quito, Ecuador
Ingeniero en Informática / Magíster en Gestión Tecnológica / Máster en Gestión de las TIC

lunes, 14 de mayo de 2012

Inteligencia de Negocios - PARTE III

Visón General | Parte I | Parte II | Parte III | Parte IV | Parte V |



TRANSFORMACIÓN

Al realizar la extracción, la identificación de las fuentes de datos puede tener un aspecto parecido al siguiente, en herramientas ETL como TALEND OPEN STUDIO o PENTAHO DATA INTEGRATION.


Extraer consiste en entender las reglas de negocio que regulan la información, para poder
navegar entre las fuentes de datos y mediante facilidades gráficas como: arrastrar y soltar; colocar sobre un lienzo los objetos que representan una conexión específica a la fuente de datos y enlazarlos mediante relaciones o flujos representados por líneas que encierran las  referencias a los datos por extraer.  Identificar el flujo de la información es importante, ello facilita el entendimiento de cada repositorio y su afectación al implementar un SIN.  El enfrentarse a diversas problemáticas de negocio y modelos; permite ir generando las habilidades necesarias para emplear efectivamente las herramientas ETL, de tal manera que las fuentes y los destinos de los datos sean enlazados de forma coherente.

La etapa de transformación ocurre precisamente una vez que se han extraído los datos y colocado en las tablas de destino, siendo la primera actividad verificar que se cumplen las pautas o estructuras que se han definido en el análisis. De no ser así los datos deben ser rechazados o depurados.  Esta fase de transformación aplica una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos que serán cargados en el DWA, en ese paso intermedio interviene el área de Staging.  El data profiling, es el soporte indispensable de la transformación y consiste en:

  • Emplear métodos analíticos que revisan los datos para obtener una comprensión completa de su contenido, estructura y calidad
  • Identificar inconsistencias, eliminar información "basura" de determinados campos, corregir valores corruptos, revisar errores manualmente para decidir como corregirlos
  • Determinar si el proyecto debe reprogramarse (cambios en el alcance, cambios en cronogramas),  para ello deben detectarse problemas que no se puedan resolver en el corto plazo y analizar la situación caso por caso

No suele ser muy tomado en cuenta, pero no deja de ser importante al tratarse de el transporte de datos; el haber configurado con la suficiente antelación los entornos informáticos donde se desplegará el sistema de Inteligencia de Negocios, el cumplir con las normativas de seguridad organizacionales, el contar con las autorizaciones explicitas para el acceso a la información y cumplir con lo exigido por entes de control superiores (por ejemplo Leyes de Protección de Datos) .


MODELADO

Es parte de la transformación, se trabaja en él desde el inicio de un proyecto para implementar un SIN, con participación de analistas con habilidad en el uso de herramientas informáticas de modelado de bases de datos analíticas, con experiencia en DWA y conocedores del negocio de la organización.  Sin el modelado de datos del DWA no hay Sistema de Inteligencia de Negocios, este paso es requisito indispensable para realizar la extracción y carga. 

Las herramientas más populares para modelado suelen estar incorporadas en los sistemas que permiten la explotación del Sistema de Inteligencia de Negocios, ya que la tendencia actual es conformar entornos o ecosistemas que brindan soluciones integrales, la mayoría de fabricantes con experiencia, dotan a sus clientes de herramientas que les permitan atender cada etapa en un proyecto de Inteligencia de Negocios (Modelado, ETL, Explotación).



Pero, ¿Qué es el modelado?.  Consiste en representar gráficamente lo que se almacena en el repositorio y cómo se gestiona dicho almacén.  Es definir las estructuras de datos en las bases de datos Staging, DWA y Data Mart, de tal forma que se logre organizar gran cantidad de información  proveniente de los sistemas transaccionales, siguiendo las reglas del negocio para que los datos puedan ser presentados por los sistemas de explotación (cuadros de mando, reportes dinámicos, gráficas, informes ejecutivos, análisis en línea, análisis predictivos, minería de datos), como muestra el esquema típico de una solución BI de las partes I o II.

El modelado se divide en dos partes, una independiente de la tecnología denominada Modelado Lógico  (puede hacerse en un procesador de palabras, una hoja electrónica o una simple hoja de papel) y el Modelado Físico que consiste en la implementación mediante software de las estructuras de datos que almacenarán la información, las cuales fueron identificadas en el modelado lógico. 

Para quien ha realizado modelos entidad-relación esto no es ninguna novedad, sin embargo los modelos de datos de un Sistema de Inteligencia de Negocios, guardan sus diferencias respecto a los modelos de datos transaccionales.  Antes de empezar se debe conocer que el modelo contendrá únicamente dos tipos de tablas: las de hechos y las de dimensión.


HECHOS

Son aquello que se desea analizar:

  • Representan medidas del Negocio: Número de expedientes, compras, ventas, etc
  • La identificación de hechos y sus dimensiones asociadas permite controlar diferentes niveles de  granularidad, esto quiere decir que se puede agrupar los datos en intervalos mas grandes o más pequeños conforme a necesidad y darle al  análisis diferentes niveles de vista de la información, por ejemplo: ventas diarias, ventas semanales, ventas mensuales, ventas trimestrales
  • Se implementan mediante muchos registros y pocas columnas
  • Suelen agregar valores numéricos

Para más detalles se puede consultar:  http://es.wikipedia.org/wiki/Tabla_de_hechos



DIMENSIONES

Representan lo que se quiere describir y contienen los datos que permiten restringir y agrupar los datos contenidos en la tabla de Hechos asociada:

  • Se aproximan al concepto de “Datos Maestros” en un sistema operacional
  • Son descriptores del negocio
  • Implementan jerarquías
  • Suelen tener muchas columnas, pocos registros
Un concepto al que está relacionada una tabla de dimensión es la jerarquía, incorpora diferentes columnas que permiten establecer una clasificación específica de los datos de la tabla de Hechos, por ejemplo:

  • Localización geográfica identificada por país, región, provincia, ciudad, barrio
  • Intervalos de tiempo como día, semana, mes, trimestre, semestre, año
  • Categoría de un producto como familia , clase, subclase 

Para más detalles se puede consultar: http://es.wikipedia.org/wiki/Tabla_de_dimensi%C3%B3n



MODELADO LÓGICO

Representa el esquema de lo que se almacena en el repositorio de datos identificando los  elementos de información y su relación con el negocio.  Está formado por los hechos por ejemplo cantidades, totales facturados u otros que son las medidas del negocio, atributos que representan el cuándo, quién, qué; es decir describen el contexto de los hechos y las relaciones entre los atributos.  A tomar en cuenta en un modelo lógico:

  • Representa el esquema de qué se almacena en el repositorio: elementos de información y su relación con el negocio
  • Modelo de datos: definición, características y relaciones
  • Se concibe a nivel de negocio o conceptual
  • Es independiente de la tecnología de almacenamiento
  • Está orientado al usuario final
  • Los componentes del modelo lógico son:

            1. Hechos(facts): medidas de negocio (cantidad, importe, saldo, suma, media, …)
            2. Atributos: describen el contexto del hechos (cuándo, quién, qué, ámbito, …).
            3. Agregaciones (sumas, medias, máximo, mínimo, …)
            4. Relaciones, cardinalidad y jerarquías entre atributos


MODELADO FISICO

Representa el esquema de cómo se almacena la información en el repositorio informacional. El modelo se compone de columnas y tablas. Se trata de la manifestación física del modelo lógico de datos en tablas de bases de datos y claves foráneas. Los esquemas de modelado pueden ser de tres tipos: Modelo en estrella, modelo en copo de nieve y modelo en constelación de estrellas.

EJEMPLOS DE MODELADO

Modelo en Estrella
  •      Una sola tabla de hechos
  •     Una sola tabla para cada dimensión


Modelo en Copo de Nieve
  • Una sola tabla de hechos
  • Varias tablas de dimensiones normalizadas


Modelo en Constelación de Estrellas (modelo mixto)
  • Varias tablas de hechos
  • Comparten dimensiones


MAS EJEMPLOS








IMPLEMENTACIÓN FÍSICA DE MODELOS EN BASES DE DATOS


MOLAP: OLAP Multidimensional
1.      Datos pre-calculados
2.      Almacenados  en cubos de dimensiones



ROLAP: OLAP Relacional.
1.      Funcionalidad similar a MOLAP
2.      Basada en bases de datos relacionales

HOLAP: OLAP Hibrido
1.      Se accede a ROLAP desde MOLAP

CBAT: Column Based Analytical Technology
1.      Datos almacenados en columnas
2.      Cálculos realizados on-line o precalculados








El cambio de paradigma hacia organizar la información en columnas se emplea con la finalidad de reducir considerablemente el tiempo de consulta sobre grandes volúmenes de información y es el resultado que los fabricantes de software analítico innovador dan al problema de costo y rendimiento, al intentar recuperar datos que se encuentran insertos en gigantescos cúmulos de almacenamiento.

En la siguiente entrega se revisaran las herramientas de explotación y se plantearán sugerencias para proyectos de Inteligencia de Negocios.




Visón General | Parte I | Parte II | Parte III | Parte IV | Parte V |

1 comentario:

  1. Great blog. All posts have something to learn. Your work is very good and I appreciate you and hopping for some more informative posts. Capacitaciones Qlik ecuador

    ResponderEliminar