Hoy día, en el mundo de los datos es cada vez más relevante hablar de dirty data. Este término se puede traducir como “datos sucios”, no obstante, su significado va más allá. Dirty data se trata de información desactualizada, errónea, incompleta, no integrada, duplicada, entre otros. Y el proceso de limpiarla genera un gran costo a las empresas.
El estudio de Experian informa que, en promedio, las empresas de todo el mundo sienten que el 26% de sus datos están sucios. Mientras que, en un estudio realizado por Deloitte, más del 66 por ciento de los encuestados declararon que los datos de terceros sobre ellos solo eran correctos del 0% al 50%. Es decir, al menos la mitad de la información estaba sucia, un porcentaje altísimo.
Por otra parte, un negocio puede tener pérdidas en promedio del 15% al 25%, según Experian. Y tan solo en México se estima que entre 2018 y 2019 las pérdidas generadas por los datos sucios ascendieron a $13 millones de dólares. Las industrias más afectadas han sido las de telecomunicación, bancarias y aseguradoras, de acuerdo con Hocelot.
Ante este panorama, podemos ver que existe un gran volumen de información sucia, lo que genera un gran costo tanto para limpiar la información, puede provocar decisiones estratégicas erróneas.. En ese sentido, es importante para las empresas comprender de dónde proviene este problema, cómo afecta a los negocios y cómo se puede tratar.
¿Cómo se originan los datos sucios?
Las causas por las que una empresa tienen dirty data son muy diversas. Por una parte, están todas las causas internas, es decir, los registros que hace el personal en las bases de datos. Por la otra, están los datos que proporcionan los clientes.
Causas internas
El error humano influye en más del 60% de información sucia. Mientras que, la comunicación deficiente entre las distintas áreas de la empresa provoca aproximadamente 35% de los registros de datos inexactos, según un estudio de Experian.
Una estrategia de datos sólida debería de disminuir estos problemas, sin embargo, una estrategia de datos inadecuada también propicia 28% de los datos inexactos.
Si varios departamentos ingresan información relacionada en una misma base de datos, incluso con una buena estrategia de datos no evita que se ensucien.
Los registros se pueden duplicar con datos por diferentes errores ortográficos de nombres y direcciones. Además, el uso de un software limitado puede llevar a que las fechas, los números de cuenta o la información personal, se muestren en diferentes formatos, lo que impide conciliar automáticamente.
Existen muchos datos inexactos ya que nadie se da cuenta que existen. Desafortunadamente, el 57% de las empresas descubren datos sucios cuando son informados por clientes. Lo que es una forma muy limitada de rastrear y resolver problemas de datos esenciales.
Muchas organizaciones buscan datos inconsistentes e inexactos mediante procesos manuales porque sus datos están demasiado descentralizados y sin estandarizar. De esa manera, cada departamento corrige sus inconsistencias, sin embargo, no está integrada la información, por lo tanto, siguen existiendo problemas de dirty data.
Causas externas
Por otra parte, son los mismos clientes quienes proporcionan información sucia. De acuerdo con la empresa Hocelot, entre 2017 y 2019, la cantidad de dirty data creció un 57% en las bases de datos de empresas en España.
Los datos más falsificados fueron la edad, la dirección y el correo electrónico. Asimismo, los análisis por dicha compañía aseguran que el 8% de los usuarios miente o aporta al menos un dato falso, cuando se solicitan los datos a través de internet.
Los análisis también demuestran que los hombres mienten o se equivocan más que las mujeres, proporcionando 61% de los datos erróneos. Mientras que las mujeres solo responden erróneamente en un 39%.
En consecuencia, es quizá imposible pensar que en el mundo de los datos podamos tener información perfectamente limpia. Sin embargo, es importante que las empresas estén consciente de esto, para que puedan tomar medidas oportunas para tener información más precisa para tomar decisiones.
Implicaciones a raíz de dirty data
Los datos sucios resultan en recursos desperdiciados, pérdida de productividad, comunicación ineficaz tanto al interior como al exterior de la empresa, y gastos de marketing no eficientes.
En los Estados Unidos, se estima que el 27% de los ingresos se desperdicia en datos de clientes y prospectos inexactos o incompletos.
La productividad se ve afectada en varias áreas importantes. Los especialistas en datos dedican alrededor del 60% y el 80% de su tiempo a limpiar, estandarizar y organizar datos. Mientras tanto, los analistas pasan hasta el 50% de su tiempo con datos ocultos e inexactos.
La introducción de un proceso manual de limpieza de datos conduce a más imprecisiones e inconsistencias.
Los datos sucios propician una disminución de la credibilidad de la empresa, ya que no conocen bien a sus clientes. Además, los clientes sienten molestos de no contar con un servicio de acuerdo con sus necesidades.
Además de la pérdida de ingresos, los datos sucios impactan a las empresas de manera más insidiosa. Solo el 16% de los ejecutivos de negocios confía en la precisión de su información para tomar decisiones comerciales.
Datos sucios en el sector financiero
En todo el mundo, la inexactitud en los datos cuestan entre el 15% y el 25% de los ingresos de una empresa. Con ingresos globales de más de 2.2 billones, esto significa que los datos sucios le cuestan a la industria bancaria global más de $400 mil millones. Los datos sucios también implican una serie de riesgos que son exclusivos del sector financiero. En especial, afecta a bancos y prestamistas, pero también afecta en especial a las aseguradoras.
La información inconsistente en la base de datos en una organización conduce a riesgos transaccionales tales como transacciones inexactas o incluso fraudulentas. Las cuentas falsas y fraudulentas deben ser detectadas temprano por procesos que limpian o detectan datos sucios. Cuando no lo hacen, el banco está en riesgo de hacer transferencias erróneas y su reputación puede ser dañada. Tambián puede otorgar préstamos o seguros a los perfiles más riesgosos.
Procesamiento de datos
¿Cuál es la solución a la dirty data? Existen varios métodos para recabar información que permita verificar la información y eliminar la que sea errónea a través de una solución digital y analítica.
Los expertos recomiendan a las compañías evitar pedir datos innecesarios o sensibles, los cuales suelen ser los que más se cambian. Además, es indispensable limpiar los datos o acceder a herramientas tecnológicas que ofrezcan datos procesados.
Finerio Connect, mediante sus tecnología de conexión a bancos, permite identificar nombre y apellidos del titular de una cuenta. Además se pueden consultar saldos en cuentas e historial de transacciones. Por lo tanto, permite validar la identidad de la persona y conocer sus ingresos y gastos reales en el mes a mes. Así, los usuarios no tendrán que hacer los registros manuales, habrá menor margen para errores o falsificación de datos, en especial, para la industria financiera.
Además, Finerio Connect se encarga de limpiar, homologar la información en un formato estándar de diferentes bancos en México, categoriza, analiza la información y actualiza los datos en tiempo real. De acuerdo con esta fintech, el proceso de limpiar y organizar la información que brindan los bancos llevó más de un año.
Identificar la causas y las consecuencia de la dirty data, te permite evaluar lo importante que es mantener actualizada la información. Y en vez de invertir tiempo y recursos en limpiar la información, sería preferible contratar a empresas que ya se han encargado de eso. De esta manera, la empresa se centra en analizar la información, con el fin de mejorar o crear nuevos servicios, conocer mejor a sus clientes y cerrar más ventas.
¿Quieres saber más sobre open banking? Registrate para ver nuestro webinar gratuito.