Datos personales

Mi foto
Quito, Ecuador
Ingeniero en Informática / Magíster en Gestión Tecnológica / Máster en Gestión de las TIC

lunes, 14 de mayo de 2012

Inteligencia de Negocios - PARTE III

Visón General | Parte I | Parte II | Parte III | Parte IV | Parte V |



TRANSFORMACIÓN

Al realizar la extracción, la identificación de las fuentes de datos puede tener un aspecto parecido al siguiente, en herramientas ETL como TALEND OPEN STUDIO o PENTAHO DATA INTEGRATION.


Extraer consiste en entender las reglas de negocio que regulan la información, para poder
navegar entre las fuentes de datos y mediante facilidades gráficas como: arrastrar y soltar; colocar sobre un lienzo los objetos que representan una conexión específica a la fuente de datos y enlazarlos mediante relaciones o flujos representados por líneas que encierran las  referencias a los datos por extraer.  Identificar el flujo de la información es importante, ello facilita el entendimiento de cada repositorio y su afectación al implementar un SIN.  El enfrentarse a diversas problemáticas de negocio y modelos; permite ir generando las habilidades necesarias para emplear efectivamente las herramientas ETL, de tal manera que las fuentes y los destinos de los datos sean enlazados de forma coherente.

La etapa de transformación ocurre precisamente una vez que se han extraído los datos y colocado en las tablas de destino, siendo la primera actividad verificar que se cumplen las pautas o estructuras que se han definido en el análisis. De no ser así los datos deben ser rechazados o depurados.  Esta fase de transformación aplica una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos que serán cargados en el DWA, en ese paso intermedio interviene el área de Staging.  El data profiling, es el soporte indispensable de la transformación y consiste en:

  • Emplear métodos analíticos que revisan los datos para obtener una comprensión completa de su contenido, estructura y calidad
  • Identificar inconsistencias, eliminar información "basura" de determinados campos, corregir valores corruptos, revisar errores manualmente para decidir como corregirlos
  • Determinar si el proyecto debe reprogramarse (cambios en el alcance, cambios en cronogramas),  para ello deben detectarse problemas que no se puedan resolver en el corto plazo y analizar la situación caso por caso

No suele ser muy tomado en cuenta, pero no deja de ser importante al tratarse de el transporte de datos; el haber configurado con la suficiente antelación los entornos informáticos donde se desplegará el sistema de Inteligencia de Negocios, el cumplir con las normativas de seguridad organizacionales, el contar con las autorizaciones explicitas para el acceso a la información y cumplir con lo exigido por entes de control superiores (por ejemplo Leyes de Protección de Datos) .


MODELADO

Es parte de la transformación, se trabaja en él desde el inicio de un proyecto para implementar un SIN, con participación de analistas con habilidad en el uso de herramientas informáticas de modelado de bases de datos analíticas, con experiencia en DWA y conocedores del negocio de la organización.  Sin el modelado de datos del DWA no hay Sistema de Inteligencia de Negocios, este paso es requisito indispensable para realizar la extracción y carga. 

Las herramientas más populares para modelado suelen estar incorporadas en los sistemas que permiten la explotación del Sistema de Inteligencia de Negocios, ya que la tendencia actual es conformar entornos o ecosistemas que brindan soluciones integrales, la mayoría de fabricantes con experiencia, dotan a sus clientes de herramientas que les permitan atender cada etapa en un proyecto de Inteligencia de Negocios (Modelado, ETL, Explotación).



Pero, ¿Qué es el modelado?.  Consiste en representar gráficamente lo que se almacena en el repositorio y cómo se gestiona dicho almacén.  Es definir las estructuras de datos en las bases de datos Staging, DWA y Data Mart, de tal forma que se logre organizar gran cantidad de información  proveniente de los sistemas transaccionales, siguiendo las reglas del negocio para que los datos puedan ser presentados por los sistemas de explotación (cuadros de mando, reportes dinámicos, gráficas, informes ejecutivos, análisis en línea, análisis predictivos, minería de datos), como muestra el esquema típico de una solución BI de las partes I o II.

El modelado se divide en dos partes, una independiente de la tecnología denominada Modelado Lógico  (puede hacerse en un procesador de palabras, una hoja electrónica o una simple hoja de papel) y el Modelado Físico que consiste en la implementación mediante software de las estructuras de datos que almacenarán la información, las cuales fueron identificadas en el modelado lógico. 

Para quien ha realizado modelos entidad-relación esto no es ninguna novedad, sin embargo los modelos de datos de un Sistema de Inteligencia de Negocios, guardan sus diferencias respecto a los modelos de datos transaccionales.  Antes de empezar se debe conocer que el modelo contendrá únicamente dos tipos de tablas: las de hechos y las de dimensión.


HECHOS

Son aquello que se desea analizar:

  • Representan medidas del Negocio: Número de expedientes, compras, ventas, etc
  • La identificación de hechos y sus dimensiones asociadas permite controlar diferentes niveles de  granularidad, esto quiere decir que se puede agrupar los datos en intervalos mas grandes o más pequeños conforme a necesidad y darle al  análisis diferentes niveles de vista de la información, por ejemplo: ventas diarias, ventas semanales, ventas mensuales, ventas trimestrales
  • Se implementan mediante muchos registros y pocas columnas
  • Suelen agregar valores numéricos

Para más detalles se puede consultar:  http://es.wikipedia.org/wiki/Tabla_de_hechos



DIMENSIONES

Representan lo que se quiere describir y contienen los datos que permiten restringir y agrupar los datos contenidos en la tabla de Hechos asociada:

  • Se aproximan al concepto de “Datos Maestros” en un sistema operacional
  • Son descriptores del negocio
  • Implementan jerarquías
  • Suelen tener muchas columnas, pocos registros
Un concepto al que está relacionada una tabla de dimensión es la jerarquía, incorpora diferentes columnas que permiten establecer una clasificación específica de los datos de la tabla de Hechos, por ejemplo:

  • Localización geográfica identificada por país, región, provincia, ciudad, barrio
  • Intervalos de tiempo como día, semana, mes, trimestre, semestre, año
  • Categoría de un producto como familia , clase, subclase 

Para más detalles se puede consultar: http://es.wikipedia.org/wiki/Tabla_de_dimensi%C3%B3n



MODELADO LÓGICO

Representa el esquema de lo que se almacena en el repositorio de datos identificando los  elementos de información y su relación con el negocio.  Está formado por los hechos por ejemplo cantidades, totales facturados u otros que son las medidas del negocio, atributos que representan el cuándo, quién, qué; es decir describen el contexto de los hechos y las relaciones entre los atributos.  A tomar en cuenta en un modelo lógico:

  • Representa el esquema de qué se almacena en el repositorio: elementos de información y su relación con el negocio
  • Modelo de datos: definición, características y relaciones
  • Se concibe a nivel de negocio o conceptual
  • Es independiente de la tecnología de almacenamiento
  • Está orientado al usuario final
  • Los componentes del modelo lógico son:

            1. Hechos(facts): medidas de negocio (cantidad, importe, saldo, suma, media, …)
            2. Atributos: describen el contexto del hechos (cuándo, quién, qué, ámbito, …).
            3. Agregaciones (sumas, medias, máximo, mínimo, …)
            4. Relaciones, cardinalidad y jerarquías entre atributos


MODELADO FISICO

Representa el esquema de cómo se almacena la información en el repositorio informacional. El modelo se compone de columnas y tablas. Se trata de la manifestación física del modelo lógico de datos en tablas de bases de datos y claves foráneas. Los esquemas de modelado pueden ser de tres tipos: Modelo en estrella, modelo en copo de nieve y modelo en constelación de estrellas.

EJEMPLOS DE MODELADO

Modelo en Estrella
  •      Una sola tabla de hechos
  •     Una sola tabla para cada dimensión


Modelo en Copo de Nieve
  • Una sola tabla de hechos
  • Varias tablas de dimensiones normalizadas


Modelo en Constelación de Estrellas (modelo mixto)
  • Varias tablas de hechos
  • Comparten dimensiones


MAS EJEMPLOS








IMPLEMENTACIÓN FÍSICA DE MODELOS EN BASES DE DATOS


MOLAP: OLAP Multidimensional
1.      Datos pre-calculados
2.      Almacenados  en cubos de dimensiones



ROLAP: OLAP Relacional.
1.      Funcionalidad similar a MOLAP
2.      Basada en bases de datos relacionales

HOLAP: OLAP Hibrido
1.      Se accede a ROLAP desde MOLAP

CBAT: Column Based Analytical Technology
1.      Datos almacenados en columnas
2.      Cálculos realizados on-line o precalculados








El cambio de paradigma hacia organizar la información en columnas se emplea con la finalidad de reducir considerablemente el tiempo de consulta sobre grandes volúmenes de información y es el resultado que los fabricantes de software analítico innovador dan al problema de costo y rendimiento, al intentar recuperar datos que se encuentran insertos en gigantescos cúmulos de almacenamiento.

En la siguiente entrega se revisaran las herramientas de explotación y se plantearán sugerencias para proyectos de Inteligencia de Negocios.




Visón General | Parte I | Parte II | Parte III | Parte IV | Parte V |

domingo, 6 de mayo de 2012

Inteligencia de Negocios - PARTE II

Visón General | Parte I | Parte II | Parte III | Parte IV | Parte V |



En un proyecto que pretende implementar un Sistema de Inteligencia de Negocios, cada vez mas se contratan servicios de terceros, la organización o empresa contratante debe formalizar un equipo de trabajo interno asignado, con responsabilidades definidas, con roles claramente establecidos y que sean consideradas las tareas del proyecto como parte de su trabajo cotidiano; de lo contrario frente a la falta de atención el proveedor (sea del software, de los servicios de mantenimiento, de la implementación del SIN) en ocasiones se acoge al silencio administrativo y toma las decisiones apoyándose en las clausulas contractuales para no incurrir en costos y conflictos futuros, pudiendo al final no atender aspectos de mejora o cambios necesarios que hubieran permitido tener una mejor solución, esto es realmente poco recomendable para quien contrata.  El origen de estas acciones suele estar generalmente en un liderazgo interno débil, la falta de experiencia en la gestión de proyectos, falta de participación de usuarios con capacidad de decisión y actitudes de resistencia al cambio.  El proveedor debe ser considerado como un socio tecnológico del que se debe aprender lo mas posible y con quien se pueda contar para el crecimiento y fortalecimiento.




Como ya se mencionó en la primera parte de la serie de artículos de Inteligencia de Negocios, es de gran importancia, antes de pasar a una etapa de ETL o iniciado el proyecto, haber respondido la siguientes preguntas:

  •  ¿ Es prioritario para la organización una inversión para este tipo de sistema en este momento?
  •  ¿ Conoce la organización, o tiene claro, el problema que desea resolver mediante la implementación de un Sistema de Inteligencia de Negocios, sería posible resolverlo de otra manera?
  •  ¿ Si se toma una decisión y se opta por emprender el proyecto se tiene claros quienes serán los responsables por parte del departamento TIC (Tecnologías de la Información y Comunicaciones) y por parte de las áreas usuarias que aportarán horas al proyecto como parte de su trabajo diario?
  •  ¿ Se contratará a terceros y se gestionará el proyecto con un equipo de trabajo interno, o lo hará todo la organización internamente, cuáles son las ventajas y desventajas, económicas, técnicas, de tiempo de las opciones consideradas?
  •  ¿ Cuál será el equipo del proyecto, quién será el sponsor del proyecto, quién está autorizado a decidir o aprobar: cambios, recepciones, entregas de información a contratistas, modificaciones en el alcance, modificaciones en presupuesto, controles del proyecto, firmar actas de entrega recepción, designar responsables funcionales por parte del área usuaria, seleccionar el equipo de trabajo por parte del departamento TIC?
  •  ¿ Se ha especificado al suficiente nivel de detalle la necesidad de la organización de tal manera que al momento de contratar una solución se haga una correcta gestión de cambios, optimizando el presupuesto asignado para evitar caer en escenarios donde se tenga que cambiar más del 20% del alcance del proyecto ORIGINAL?
  • ¿ Se ha dimensionado correctamente el presupuesto del proyecto y se ha calculado un retorno de la inversión, además de los beneficios de implementar un Sistema de Inteligencia de Negocios?
  • ¿ Se ha realizado un análisis de riesgos asociados al proyecto y desarrollado los planes de mitigación respectivos?
  • ¿ Se cuenta con los profesionales capacitados o formados para enfrentar este tipo de proyecto, hará falta además de implantar una solución; un proceso de formación al personal involucrado en la explotación de la solución, quiénes serán los responsables de la explotación de la solución?
  • ¿ Se han evaluado soluciones tecnológicas de acuerdo a la realidad financiera, cultural, estructural de organización, existen conflictos por la propiedad de la información a ser tratada por parte de usuarios que puedan oponerse al cambio?

El proceso ETL, de siglas en ingles para expresar EXTRACCIÓN, TRANSFORMACIÓN Y CARGA, es el conjunto de técnicas que permite a las organizaciones "mover" los datos desde múltiples fuentes, aplicar diversos procesos de conformado, afinamiento, depuración y cargarlos en otras bases de datos, Data Mart o Data Warehouse, para su empleo en los análisis corporativos.

ETL, suele ser la parte más compleja en un proyecto BI, pudiendo consumir su desarrollo alrededor del 50% del tiempo total del proyecto, por ello es importante tener claras las características y priorizar los datos a extraer conforme a los objetivos que se ha propuesto la empresa.

Estructura típica de un SIN (Sistema de Inteligencia de Negocios)


EXTRACCIÓN

La primera parte del proceso ETL consiste en extraer los datos desde las bases de datos de los sistemas de origen, sean estos Sistemas de Planificación de los Recursos de la Empres (ERP), sistemas de comercialización, diseño de campañas y mercadeo (CRM),  sistemas de gestión de las cadenas de suministro (SCM), sistemas de gestión de incidencias, atención al cliente o recepción de reclamaciones  (SGI), todo ello va a depender de los objetivos del proyecto y de lo que se requiere analizar, es decir depende de aquello sobre lo cual se desea hacer Inteligencia de Negocios. 

Para realizar la extracción, es indispensable tres consideraciones fundamentales:

  1. Haber modelado la base de datos analítica conforme a las necesidades de la organización, tanto del punto de vista lógico como físico, empleando además para ello las herramientas tecnológicas necesarias.  En la adquisición de estas herramientas reside un costo importante del proyecto.  Se requiere personal especializado en el modelado de datos, el tiempo que se dedique al modelado está relacionado a la prioridad del proyecto y a la carga de trabajo dependiente de la dimensión y complejidad del proyecto.
  2. Decidir si se desarrollan o se adquieren herramientas tecnológicas para la extracción, transformación y carga de la información en las bases de datos analíticas. Además de haber mapeado previamente cada registro de datos de los sistemas de origen con su objetivo en el destino de almacenamiento.
  3. Contar con uno o varios profesionales, todo depende de las dimensiones del proyecto, especialistas en informática o afines que sean capaces de reconocer las relaciones de los datos de la empresa en los sistemas de origen, y que tengan los conocimientos técnicos necesarios para emplear herramientas tecnológicas que permiten extraer la información y grabarla en las nuevas fuentes de datos del SIN (Sistema de Inteligencia de Negocios).  El contar con personas sin la suficiente experiencia puede causar retrasos considerables.


Se conoce como repositorio informacional o base de datos analítica, al sitio que almacena toda la información extraída de los sistemas origen. Los componentes del repositorio son los siguientes:

  •  ODS (Almacén de datos operativos). Se trata de una réplica de los datos recientes del sistema transaccional, esto evita realizar las consultas para el análisis directamente en las aplicaciones transaccionales evitando molestias a los usuarios operativos y brindando mejores resultados en los tiempos de respuesta a los usuarios analistas que finalmente consultarán lo almacenado en el DWA o en los Data Mart.  Es muy importante considerar que las extracciones y cargas de datos en este repositorio deben ser incrementales y planificadas en horarios que no afecten a los usuarios operativos, para evitar bajones en el rendimiento de los sistemas transaccionales que pudieran afectar en vivo a procesos como ventas, comercialización, compras u otros.
  • Base de datos o área de staging. Consiste en el almacenamiento temporal de datos. Se utiliza para cálculos intermedios, limpieza y preparación de los datos finales a cargar.  Para pasar de esta base de datos a los Data Mart o al DWA debe considerarse períodos planificados y tener en cuenta los tiempos en que los grandes bloques de información pueden tardar en transportarse, esto puede requerir ventanas de tiempo en las cuales los usuarios analistas podrían no tener una respuesta eficiente en sus consultas o reportes.
  • Data Warehouse Analítico (DWA). Es una copia de los datos de los sistemas transaccionales estructurados específicamente para la necesidad de reporte personalizada de un usuario avanzado, el análisis y la divulgación.  Almacenan información integrada, consolidada, homogénea, fiable, histórica, no modificable y detallada.  El DWA debe tener un diseño totalmente independiente de la tecnología, formato y estructura de almacenamiento.  Sus datos provienen de los ODS y el área de Staging. 
  • Data Mart. Se trata de una versión especial de DWA. Consiste en una base de datos departamental, especializada en el almacenamiento de los datos de un área de negocio específica que dispone de una estructura optimizada de datos para acceder y analizar la información al detalle. Sus datos provienen de los ODS y el área de Staging.


Una empresa puede optar por desarrollar sus propias herramientas ETL o por adquirirlas, frente a esta consideración, se puede dar una idea de lo que implica cada elección:

Comparativa de herramientas versus desarrollos propios

Herramientas ETL
Desarrollos propios
Productos probados y ampliamente usados
Emplear tiempo y recursos económicos  en crear herramientas nuevas
Permiten la conexión a diferentes fuentes de datos
Las conexiones a las fuentes de datos deben desarrollarse una a una
Tiempos: Instalar y usar
Tiempos: Desarrollar, probar, instalar y usar
Se requiere personal que sepa mantenerlo y explotarlo
Se requiere personal dedicado al desarrollo, luego al mantenimiento y explotación
Costes por licencia y formación
Costes por tiempo del personal dedicado al desarrollo

Las herramientas, o software para ETL, suelen incorporar interfaces gráficas que muestran los orígenes y los destinos de datos, incluyen métodos de conexión a fuentes de datos heterogéneas, muestran las relaciones y conexiones de diferentes bases de datos, permiten además detectar inconsistencias y realizar procesos de inserción masiva de los datos en los ODS, Staging, DWA, Data Mart, permiten realizar una trazabilidad de los datos  en un Sistema de Inteligencia de Negocios.

Las aplicaciones mas conocidas para realizar procesos ETL son las siguientes, cada una lleva un enlace a una página web donde se podrá averiguar un poco más acerca de su alcance y especificaciones:

·         Talend OpenStudio (TOS)
·          Cognos Data Manager (IBM)


En la siguiente entrega se expondrá la fase de Transformación y Carga, veremos algo de modelado y finalmente pasaremos a revisar herramientas de almacenamiento y análisis...




Visón General | Parte I | Parte II | Parte III | Parte IV | Parte V |