Datos personales

Mi foto
Quito, Ecuador
Ingeniero en Informática / Magíster en Gestión Tecnológica / Máster en Gestión de las TIC

jueves, 7 de junio de 2012

Inteligencia de Negocios - PARTE IV

Visón General | Parte I | Parte II | Parte III | Parte IV | Parte V |




Una vez que se ha revisado los conceptos de extracción y transformación, la carga de datos ocurre al emplear las herramientas ETL para colocar los datos conforme lo establece el modelado adoptado.  La carga puede realizarse en los diferentes repositorios que conforman el almacén de datos analítico (siglas en inglés: DWA), lo importante es que se haga una adecuada gestión sobre la calidad de los datos para que los resultados en las herramientas de explotación cumplan las necesidades de los usuarios del Sistema de Inteligencia de Negocios (SIN) y no menos importante resulta también algo que no ve el usuario, esto es que se tomen en cuenta estrategias eficientes al momento de realizar la carga de datos en los repositorios, tomando en cuenta las capacidades y tiempos que los equipos de cómputo disponibles emplearán en las tareas de procesamiento, una estrategia usual es la carga incremental y el seguimiento de un calendario en franjas horarias establecidas como de bajo impacto, esto quiere decir reducir al mínimo los riesgos de llevar al sistema a condiciones de no disponibilidad.

Los problemas de calidad de datos no se tienen siempre en cuenta al principio del proceso ETL, cuando el equipo está centrado más bien en mover una gran cantidad de datos que en pequeños datos individuales que no sean correctos.  Sin embargo, la mala calidad de los datos o la falta de los mismos suponen problemas, ya que la información base que se usa para su explotación es errónea.  Es primordial que los usuarios tengan la seguridad de que los datos e información que están usando son correctos y no tienen ningún tipo de errata o desviación.

Existen muchas causas que no se pueden controlar para que un dato no sea correcto, la experiencia sin embargo determina que las principales causas de falta de calidad en los datos podrían ser:

  • Valores perdidos o incompletos en la fuente de datos
  • Falta de integridad referencial en el sistema origen
  • Errores en datos precalculados
  • Diferentes unidades de medida
  • Datos duplicados
  • Campos divididos
  • Múltiples jerarquías
  • Reglas conflictivas o inconsistentes


La evaluación de la calidad puede llevarse a cabo en diferentes puntos a lo largo del proceso ETL. Puede realizarse sobre la fuente origen de los datos, en el proceso de carga de los datos o cuando los datos están cargados en el DWA.

Lo ideal, es realizar los controles en la propia fuente de los datos, antes de cargarlos. Con esta práctica nos aseguramos que luego se trabajará con datos validados y limpios. Aunque la experiencia ha demostrado, sin embargo, que la corrección de datos en el sistema origen es complicada de realizar debido a dos principales razones:

  • La primera, es que sería el personal operativo el que tendría que asumir la responsabilidad adicional de rastrear y corregir los errores de datos pasados 
  • La segunda, que los datos correctos pueden ser desconocidos, siendo una tarea complicada y tediosa determinar los datos correctos.


Con respecto a quién debe ser el encargado de validar la calidad de los datos, el personal adecuado para esta función ha de ser alguien que conozca el negocio y todos sus procesos a la perfección, ya que así podrá distinguir y predecir aquellos datos que sean erróneos y guiar el proceso de control de la calidad de los mismos.



LA ETAPA DE EXPLOTACIÓN 

Es posible mediante las herramientas de explotación, suena redundante pero el esfuerzo realizado por los proveedores de soluciones en conseguir interfaces cada vez más intuitivas y orientadas a ejecutivos, posibilita el análisis de la información que se haya cargado en el DWA con las diferentes metodologías y  tecnologías.  Este conjunto de herramientas y metodologías actúan en torno a tres ejes fundamentales:

  1. Accesibilidad a la información. Lo primero que deben garantizar este tipo de herramientas y técnicas será el acceso de los usuarios autorizados a los datos con independencia de la procedencia de estos.
  2. Apoyo en la toma de decisiones. Se busca ir más allá en la presentación de la información, de manera que los usuarios tengan acceso a herramientas de análisis que les permitan seleccionar y manipular sólo aquellos datos que les interesen.
  3. Orientación al usuario final. Se busca independencia entre los conocimientos técnicos de los usuarios y su capacidad para utilizar estas herramientas. Para ello dichas herramientas deben basarse en conceptos de negocio familiares para el usuario  con interfaces gráficas de fácil usabilidad.


¿Cómo elegir la herramienta o conjunto de herramientas para la explotación de un SISTEMA DE INTELIGENCIA DE NEGOCIOS?

Cada organización es conocedora de sus necesidades, limitaciones o habilitantes financieras, de personal, culturales y tecnológicas.  Realizar una recomendación genérica resultaría demasiado ambicioso, sin embargo existen referencias a tomar en cuenta al momento de enfrentarse a la tarea de seleccionar una herramienta de Inteligencia de Negocios que apoye efectivamente a las tareas de análisis del negocio. 




CONSULTAR REFERENCIAS DE OPINIÓN

El mundo del software es dinámico, los principios conceptuales permanecen por más tiempo que las herramientas que se presentan a los mercados consumidores, por ello es muy importante estar atento a los analistas o creadores de opinión de reconocido prestigio, que aunque no puedan resultar cien por cien acertados han invertido fondos económicos y tiempo en realizar sus análisis y esto es ya un componente que permite acercarse a información de primera mano para dilucidar una opción.  Un ejemplo de ello son los informes presentados por la consultora GARTNER, mediante su ya famoso cuadrante mágico, que representa la condición del mercado para un producto tecnológico en un momento determinado, presenta para el caso de Inteligencia de Negocios las diferentes empresas proveedoras, clasificadas en zonas donde mediante un punto de color naranja se puede distinguir donde están posicionados sus productos:


http://businessintelligence.info/docs/estudios/Gartner-Business-Intelligence-2011.pdf




Líderes (leaders): aquellos que tienen la mayor puntuación resultante al combinar su habilidad para ejecutar (lo bien que un vendedor vende y ofrece soporte a sus productos y servicios a nivel global) y el alcance de visión, que se refiere a su potencial. 

Aspirantes (challengers): caracterizados por ofrecer buenas funcionalidades y un número considerable de instalaciones del producto, pero sin la visión de los líderes.

Visionarios (visionaries): estos pueden tener todas las capacidades que ha de ofrecer un Sistema de Inteligencia de Negocios, bien pudiera ser mediante alianzas con otros socios, lo cual significa un fuerte impulso a la integración de programas y plataformas así como una habilidad para anticiparse a las necesidades del mercado que ellos no puedan cubrir.

Nichos específicos (niche players): enfocados a determinadas áreas de las tecnologías de Inteligencia de Negocios, pero sin disponer de una suite completa.

Esta información puede orientar una decisión pero no debe ser determinante, pues hay otras cosas que se deben tomar en cuenta, lo que es muy útil de este tipo de análisis son los perfiles de empresas que pueden responder a nuestras necesidades, las herramientas que fabrican y luego a partir de conocer esa información se pueden conocer sus clientes, se les puede contactar, buscar otras empresas de perfil similar, solicitar pruebas piloto, indagar, conocer sus soluciones.  El cuadrante por sí solo no es lo más importante, lo que aporta es usar su información para perfilar el tipo de empresa que puede atender la necesidad del negocio de una organización que busca implementar un SIN.



TOMAR EN CUETA LAS CARACTERÍSTICAS NO FUNCIONALES


Cuando se analiza la adquisición o implementación de un SIN, del cual se espera apoye a la toma de decisiones, es importante comprender que existen dos puntos de vista, el del usuario quien no está interesado en conocer detalles técnicos ni plataformas de desarrollo, ni que el código con el que se programó cumpla estándares, lo único que le interesa que el costo haya sido razonable, que se resuelvan sus problemas y el punto de vista técnico.  

La complejidad en el punto de vista técnico debe evitarse en reuniones ejecutivas de alto nivel, sin embargo debe transmitirse las implicaciones técnicas sin emplear un lenguaje complejo que los directivos no podrán comprender.  

Quizá el servicio de ventas del proveedor tiene un gran enganche con usuarios clave, con personas capaces de tomar decisiones en la organización, entra en ese momento en escena la razón de ser de un departamento TIC, analizando el nivel de integración de  las herramientas que se están proponiendo a la plataforma tecnológica de la organización y considerando otros aspectos que para los usuarios resultan prácticamente invisibles:

  1. La solución resuelve los problemas del usuario en todos los demos y pruebas, sin embargo existe la necesidad de dimensionar y cuantificar: los costos de la configuración de los entornos donde va a operar el sistema, permisos de acceso, servidores necesarios, permisos de red, firewalls, medios físicos de almacenamiento y respaldo de la información, incompatibilidades tecnológicas a resolver con la plataforma informática de la organización, necesidades de integración con otros sistemas, políticas de recuperación de los datos en caso de desastre informático, costos y tiempos de la capacitación a usuarios, costos de mantenimiento, costos y tiempos de formación a personal técnico, mecanismos de ayuda a los usuarios durante la explotación, cronogramas del proyecto, equipo de trabajo del proyecto y tiempo que se le va a dedicar por recurso, los entregables que se espera recibir, las responsabilidades formalizadas en documentos sobre los niveles de  aprobación de usuarios y técnicos sobre los entregables recibidos.
  2. Dimensionar el impacto del volumen de información a procesar sobre la capacidad de cómputo que se dispone para el proyecto del SIN (Sistema de Inteligencia de Negocios), esto puede requerir mayor inversión en Hardware y capacidad de cómputo (servidores, memoria, CPU, almacenamiento).
  3. Definir los niveles de servicio y perfiles de los usuarios del SIN, antes de la implementación y luego afinarlos progresivamente.
  4. Se debe comprometer al proveedor a cubrir un período de mantenimiento y soporte, remoto o en sitio, conforme a los intereses de la organización y en base a un ANS (Acuerdo de Nivel de Servicio). 

Para elegir un motor de datos específicos se requiere conocer el presupuesto de la empresa ante el tema de adquirir licencias, implantación y escalabilidad, considerando la posibilidad de migrar los sistemas a nuevos motores de bases de datos.  Un DWA en sus repositorios deben cubrir al menos las siguientes características:

  • Repositorio de datos analítico centralizado
  • Alto performance en el acceso concurrente
  • Tiempos reducidos de consulta en bases de datos históricas
  • Alta disponibilidad 
  • Permitir la creación y configuración de mecanismos de respaldos y restauración de datos
  • Alto nivel de integración con herramientas de explotación 

Cada empresa debería poder determinar sus estándares en cuanto al acceso y rendimiento.  Se presentan a continuación los  resultados de un estudio realizado como parte de un Máster en Tecnologías de la Información, en la Facultad de Informática de la Universidad de Barcelona – UPC en Septiembre de 2009 cuyo autor es Pol Rojas Bartomeus, se trata de un análisis de las diferentes bases de datos analíticas partiendo de crear un entorno de pruebas que consiste en el montaje de máquinas virtuales con volúmenes de datos de gran tamaño y produciendo niveles de stress que simulan la operación de una empresa en entorno cercano a un caso real, aplicando cinco tipos de consulta que buscaron identificar medidas para comparar de manera cuantitativa, los resultados y la exigencia que el software hace al hardware, esto permite aproximar posibles comportamientos de las aplicaciones, y obviamente ayuda a tomar decisiones.

En el trabajo mencionado se definen cinco tipos de consultas, las cuales se ejecutan en diferentes máquinas virtuales, en cada máquina virtual se ha instalado una solución tecnológica diferente, las soluciones tecnológicas que se comparan son: Oracle, SQL Server, Alterian y QkilkView.

No entraremos en detalle del trabajo en mención, pero resumiremos algunos de sus aspectos destacados, la siguiente tabla muestra el planteamiento de las cinco consultas:   


Medición de resultados, % medio de uso de CPU por consulta y por sistema: 


Medición de resultados, cantidad de memoria virtual utilizada en megabytes por consulta y por sistema:



Medición de resultados, cantidad de memoria RAM utilizada en megabytes por consulta y por sistema:


Medición de resultados, tiempo de respuesta de las consultas en cada sistema:


En conclusión, después de la realización de las pruebas sobre Oracle, SQL Server, Alterian, Qlik View, se obtiene los resultados presentados en la siguiente tabla:


Como se puede apreciar es una forma de comparar, creando escenarios de pruebas.  Se puede solicitar al proveedor una serie de test que permitan determinar el sistema más conveniente.  Claro esto dependerá del tamaño del SIN, del poder de negociación que se tenga, de las dimensiones del proyecto, pues en una etapa de oferta implica recursos del proveedor por los cuales no recibe pago.  La simulación da una idea, lo cual ayuda mucho, pero no será igual que una situación real.  Sin embargo es preferible a no tener referencias.  


TOMAR EN CUENTA LAS CARACTERÍSTICAS MÍNIMAS  A CUMPLIR 

Sea cual sea la opción elegida, el usuario del SIN debe tener a su disposición una herramienta de explotación que incorpore al menos las siguientes características:


  1. Reporting predefinido. Si la herramienta posee reporting, cualquier persona de la compañía que lo requiera para realizar sus funciones podrá acceder a información en línea, con internet como medio de acceso si es posible. Es importante para obtener una visión de cómo se encuentra la empresa de cara a la toma de decisiones.
  2. Drill-down. Se trata de la funcionalidad que permite navegar de los datos generales a los particulares en la información presentada. Es relevante si se desea obtener información sobre un aspecto a nivel inferior.
  3. Análisis avanzado. Consiste en identificar conocimiento que no se puede ver de una forma intuitiva en base a los datos que maneja la empresa. Es importante ya que así se puede analizar por qué se dan una serie de aspectos y tomar decisiones al respecto.
  4. Análisis predictivo. Se trata de la capacidad de las herramientas informáticas para poder realizar análisis sobre los datos del negocio e identificar patrones y tendencias que ayuden a tomar decisiones con respecto al rumbo de la empresa de cara al futuro.
  5. Enriquecerse de datos externos sobre la marcha. La herramienta debe permitir cambios en los reportes generados y en la presentación de los mismos sin una dependencia alta del personal de sistemas 
  6. Capacidad de acceso a grandes volúmenes de datos. Es necesario debido a que la organización maneja generalmente una gran cantidad de datos y el sistema ha de poder trabajar correctamente con las cargas estimadas y luego con las reales.
  7. No dependencia de expertos. Es importante que la herramienta esté orientada al usuario y no haga falta grandes conocimientos técnicos para manejarla debido a que no todas las personas que harán uso de ella tendrán dichas capacidades.


Adicionalmente las herramientas que permiten la explotación de un SIN suelen incorporar cuadros de mando, incluso algunas herramientas presentan diagramas de conjuntos de datos, intersecciones, uniones, en definitiva la finalidad es tener mecanismos gráficos donde la información puede verse en forma resumida por ejemplo un manómetro, esto ayuda mucho a determinar de una sola mirada el estado de los indicadores de la empresa, por ejemplo:



  • Rentabilidad por tipos de clientes
  • Rentabilidad por tipos de productos: internet, telefonía fija y móvil, teléfonos 
  • Índice de abandonos en un período determinado
  • Uso que realizan los clientes de los distintos servicios
  • Nivel de morosidad de clientes



Si se desea profundizar aún más en las tendencias de los comportamientos por ejemplo de clientes puede incorporarse el concepto de Minería de Datos, aunque esto suele en general implicar la intervención de otras herramientas que trabajan por fuera del SIN pero sobre sus bases de datos analíticas, lo que suelen requerir es que se disponga de un repositorio físico para construir las vistas necesarias para realizar análisis de predictibilidad, pero hay que tener cuidado de contar con el personal adecuado en este ámbito ya que el perfil requiere conocimientos avanzados de estadística.

Un ejemplo de tabla comparativa simple que permita acercarnos más a una decisión se refleja a continuación, ya dependerá de cada organización complicarse más, considerar costos, tiempos de implantación y todo aquello que haga falta, o menos, dependerá de sus métodos de selección de tecnología de Inteligencia de Negocios:


  1. Marcar con una "X" si no se cumple el requisito 
  2. Marcar con un "OK" si se cumple el requisito 



En la última entrega revisaremos algunas consideraciones adicionales para proyectos que buscan implementar un Sistema de Inteligencia de Negocios.


Referencias:


Visón General | Parte I | Parte II | Parte III | Parte IV | Parte V |

2 comentarios:

  1. Interesting Article. Hoping that you will continue posting an article having a useful information. Reportes Qlik Ecuador

    ResponderEliminar
  2. MCP - Dr.Mcd
    MCP, formerly the MGM Resorts International, 과천 출장마사지 now owns the hotel chain 과천 출장샵 and is MCP, formerly the 경상남도 출장샵 MGM 목포 출장마사지 Resorts International, now owns the 양주 출장샵 hotel chain and is now

    ResponderEliminar