Decimos que es el talón de Aquiles de toda análisis que se quiera realizar por la siguiente razón: cualquier análisis que quiera derivarse de datos erróneos, resultará en más errores. No por nada, entre el 70% y el 80% del tiempo de todo proyecto analítico se concentra en esta etapa.
Fuentes de información
En toda organización los datos están distribuidos a lo largo de diversos sistemas que pueden clasificarse como:
Formales. Aplicaciones en general que dan soporte a la organización; como ser aplicaciones de negocio, sistemas core, etc. Se mencionan como formales por estar soportadas por áreas de la organización.
Informales. Sistemas “caseros” desarrollados internamente para suplir una falencia de información en los sistemas formales. Pueden ser planillas de cálculo, bases de datos caseras (por ejemplo realizadas con Microsoft Access), mails enviados con información bajo un criterio de periodicidad, etc.
Se mencionan como informales por su razón de ser informal, sin procesos ni soporte de áreas idóneas, pero no por eso menos críticos. De hecho, en su mayoría, por su permeabilidad a los errores, se transforman en sistemas críticos difíciles de reemplazar.
Independientemente de su grado de formalidad, las fuentes a su vez pueden categorizarse como:
Internas. Fuentes de información donde la responsabilidad por la generación, calidad y disponibilidad de los datos es parte de la organización.
Externas. Donde un tercero, ajeno a la organización, provee información a través de algún sistema de intercambio que puede variar desde el propio intercambio de archivos, el acceso manual a un sistema para consulta de la información, o el acceso automatizado a través de Webservices o API’s.
Ejemplos de estas fuentes pueden ser bases de datos provistas por una tercera persona (bases de prospectos por ejemplo), informes de mercado, hasta información provista por aplicaciones de tipo SaaS (Software as a Service), por sus siglas en inglés- tales como com, Flurry.com o Google Analytics, por nombrar algunas.
Públicas. Como sub-conjunto de las fuentes externas, las fuentes de información públicas (cada vez más utilizadas) son aquellas disponibles para cualquier persona, de manera directa o indirecta, provistas por lo general por instituciones, entes de gobierno o inclusive privados. A modo de ejemplo, se menciona información de censos, iniciativas de Open Data y Gobierno transparente, inclusive información extraíble de páginas web (como ser sitios de diarios, de la competencia, etc) o archivos de datos liberados al público.
Claramente, el uso de fuentes externas implica un desafío adicional para garantizar su calidad y disponibilidad de cara a la organización.
En base a su estructura, las fuentes y por ende los datos contenidos en ellas pueden a su vez definirse como:
Estructurados. Donde los datos son almacenados bajo una estructurada prefijada que los define e identifica. Por ejemplo, a la información almacenada en tablas de una base de datos relacional se la considera típicamente estructurada dado que cada atributo de los datos se conoce de antemano: nombre, tipo de datos, longitud, etc. Estos atributos no pueden mezclarse entre sí (por ejemplo, almacenar un nombre en un campo que almacena números) dado que su naturaleza es, justamente, estructurada.
Semi-estructurados. Donde los datos son almacenados bajo una cierta estructura, pero siendo esta más permeable a cambios y no tan rígida como su contraparte estructurada. Por ejemplo, podemos pensar las planillas de cálculo como fuentes semi-estructuradas, dado que podemos mezclar los tipos de datos (y el contenido en general) sin demasiados inconvenientes.
No estructurados. Decimos que una fuente o un dato no tiene estructura cuando no tenemos forma de organizarlo previamente en relación a su contenido. Por ejemplo, el correo electrónico puede considerarse como no estructurado. Si bien se puede ordenar una casilla por fecha o remitente, no se puede ordenar por el contenido propio de los mails porque justamente no tiene una estructura previa.
Las actividades asociadas a Data Integration serán fundamentales para articular las fuentes de información existentes con las nuevas disponibles, en un proceso de delivery continuo de información que garantice siempre la disponibilidad y calidad de la misma.
Procesamiento de datos
Como vimos antes, siendo que la información se encuentra distribuida a lo largo de distintos sistemas, el primer paso para lograr una visión unificada será el procesamiento y la integración de los mismos.
Integrarlos significa mucho más que su vinculación física a través de claves técnicas: implica resolver las disonancias conceptuales existentes en toda organización, unificando criterios, normalizando el lenguaje.
Procesar datos supone como mínimo:
Integrarlos. Identificar y gestionar las distintas alternativas para la unión de las diversas fuentes de información con las que se esté trabajando: sea directamente (a través de claves unívocas), indirectamente (a través de tablas o reglas de desambiguación) o a través de reglas de Fuzzy Matching (a través de la aplicación de “lógica difusa” que servirá para aproximar una clave a la otra; por ejemplo, integración en base a valores fonéticos).
Consolidarlos. Gestionar los distintos niveles de detalle (granularidad) de cada fuente, reduciéndolos o extendiéndolos en base a otras fuentes según corresponda el análisis a realizar.
Depurarlos. En base a la aplicación de criterios o reglas de negocio y la gestión de las excepciones.
Transformarlos. Crear nuevas variables o aplicarles un formato específico que facilitará su análisis.
Actualizarlos. Gestionar las distintas frecuencias de actualización de las fuentes de información de una forma sistémica.
Limpieza y enriquecimiento de los datos
Si lo que buscamos es transformar datos en información para la toma de decisiones, es claro que la calidad de los mismos será absolutamente crítica: cualquier decisión tomada en base a malos datos traerá consecuencias nefastas. Es por esto que sostenemos que la calidad es el talón de Aquiles de toda solución analítica.
En este sentido, sin embargo, constantemente vemos que muchas organizaciones no accionan en consecuencia: no sólo no validan ni actúan para resguardar la calidad de sus datos sino que hasta llegan a aceptar la mala calidad como una condición inherente, y utilizan conscientemente. Esa información defectuosa.
Atributos que esperamos de los datos
La calidad de los datos se define según el grado de los siguientes atributos:
Exactitud: Grado en que los datos representan la realidad o una fuente aceptada como válida.
Consistencia: Los datos deben representar y valer lo mismo para todas las áreas o sistemas utilizados.
Completitud: Grado en que las bases de datos cuentan con toda la información crítica para el negocio.
Nivel de detalle: Determina si el grado de desagregación de la información es el apropiado para la decisión a tomar.
Usabilidad: Determina si los valores y la estructura de los datos están disponibles bajo un formato que facilite su uso.
Oportunidad: Disponibilidad de la información a tiempo para la toma de decisiones.
Como se observa, no solo debe contemplarse la calidad del dato como un atributo intrínseco sino también su uso en tiempo y forma. Datos de calidad no implican necesariamente datos 100% libres de errores. Únicamente deben satisfacer los requisitos de información de las personas que los usan (considerando que esto variará según la actividad a realizar).
Métodos utilizados
Todo proceso de limpieza ejecuta como mínimo las siguientes tareas:
Estructuración / Extracción de entidades: La capacidad para identificar en una oración elementos de datos como ser nombres de personas o empresas, direcciones, etc. Este proceso será fundamental para estructurar información no estructurada o parcialmente estructurada.
Corrección de datos: En base a la aplicación de reglas, criterios, fuentes o sistemas adicionales, los datos se validarán y, en la medida de lo posible, se corregirán. Toda información y tratamiento de valores nulos será resuelto en esta etapa.
Estandarización: Rutinas de conversión para transformar datos en un formato consistente y de preferencia.
Deduplicación: Identificación y tratamiento de información duplicada.
Enriquecimiento: Incorporación de información adicional, asociada al dato en cuestión.
Recomendaciones
Retomando y generalizando el inicio de esta publicación, los datos son el talón de Aquiles de toda organización. No por estar de moda, las prácticas de Data Analytics son sencillas. Por el contrario, como se observa en la lectura de esta publicación, son actividades muy especializadas donde cualquier error puede tener grandes consecuencias. Es por eso que es una práctica recomendable utilizar herramientas de propósito específico y complementar el equipo de trabajo existente en una organización con el de especialistas que puedan aportar know-how específico. Este es el caso de Sura Asset Management, donde se utilizó tecnología de AWS – Amazon Web Services para acelerar la implementación de una solución de Business Analytics end-to-end y los servicios profesionales de Datalytics para su configuración, gestión e implementación. De esta forma se logró el balance entre una solución de datos flexible y escalable, implementada de forma dinámica sin incurrir en demoras o complejidades asociadas a una solución on-premise.
“Datalytics S.A.S nos presta el servicio de diseño, implementación, hospedaje y administración en AWS del ambiente de desarrollo para las soluciones de Inteligencia de negocios de Sura Asset Management, así como servicios de outsourcing de personal para labores de mantenimiento y soporte de las soluciones de inteligencia de negocios para la compañía“, Mónica Agudelo, Directora de Tecnología, Sura Asset Management.