Cuando los datos cuentan cualquier cosa menos un hecho

Gracias por darme amor compartiendo en tu app favorita:

Los datos son el oro del siglo XXI. Nos prometen respuestas, revelaciones y hasta el secreto para llevar nuestros negocios al estrellato.

Pero, ¿y si ese oro está lleno de impurezas?

Lo que podría ser una brillante mina de conocimiento puede convertirse en una trampa repleta de suposiciones incorrectas, errores de cálculo y conclusiones precipitadas. Porque sí, queridx (presente o futuro) analista, los datos también tienen sus limitaciones.

Veamos cómo esas limitaciones pueden jugarnos una mala pasada y por qué los procesos ETL (Extract, Transform, Load) son los héroes anónimos de esta historia.


Los datos cuentan historias, pero no los porqués

Es fácil encandilarse con un bonito gráfico que muestra una subida vertiginosa en las ventas del último trimestre. Pero ese gráfico no te dice por qué tus ventas subieron.

Quizá fue la casualidad, una moda pasajera o un golpe de suerte porque tu competidor cerró temporalmente. Los datos son como un narrador neutral: cuentan lo que pasa, pero no por qué pasa.

En no pocas ocasiones, como analistas o como decisores desinformados que utilizamos los datos para tomar decisiones informadas, mezclamos interpretación con hecho.

Y es ahí cuando se lía parda.

Imagina que tienes una tienda de helados y notas que las ventas de helados de chocolate se dispararon en julio. ¿Conclusión? "¡La gente ama el chocolate!".

Pero si te molestas en investigar, podrías descubrir que julio tuvo la ola de calor más intensa de la década. Sin contexto, los datos te cuentan un cuento de hadas… o una tragedia.


Problemas comunes con los datos: de lo absurdo a lo peligroso

1. Datos incompletos: el agujero negro

Un clásico.

Estás analizando las certificaciones de tu personal, pero ¡oh sorpresa! los registros solo incluyen los últimos dos años. ¿Conclusión? "Nadie estaba certificado antes de 2022".

Suena convincente hasta que recuerdas que el software de registros comenzó a usarse hace dos años. Ahora tienes un análisis incompleto y un jefe enfadado.

Otro ejemplo:

Un analista revisa los datos de satisfacción de los clientes y nota que faltan todas las encuestas de un trimestre. Sin saberlo, presenta un informe que sugiere que las opiniones mejoraron dramáticamente. ¿La verdad? Ese trimestre se ignoraron las quejas por un error del sistema.

¡Boom!

Ahora los directivos creen que su estrategia es infalible.


2. Definiciones inconsistentes: un lío terminológico

Cada equipo tiene su propia manera de medir las cosas.

Un ejemplo recurrente que se ve habitualmente en la docencia a desempleados, tanto en fuentes del Servicio Canario de Empleo como en fuentes de los propios centros:

Mientras un departamento cuenta todos los alumnos inscritos en un curso, otro solo registra a quienes lo completaron.

Cuando juntas los datos, obtienes un hermoso caos.

¿Quieres otro ejemplo?

Supongamos que analizas cuántos "leads calificados" recibe el departamento de ventas. El equipo de marketing los define como "gente que mostró interés". Pero ventas considera un lead calificado alguien que respondió al correo.

Resultado, obviamente, dos números diferentes y una discusión interminable en la próxima reunión.


3. Los datos sucios: cuando el Excel parece un campo de batalla

Errores de formato, valores duplicados, celdas vacías. El temido «dato sucio» es como encontrar una mosca en tu sopa de números. Limpiarlos puede parecer un trabajo tedioso, pero ignorarlos puede costarte decisiones catastróficas.

¿Un ejemplo que te sonará conocido?

Tu base de datos tiene el mismo cliente registrado tres veces, cada uno con un nombre ligeramente distinto: "Juan Pérez", "Juan P.", y "J. Pérez". Decides enviar descuentos especiales… y Juan recibe tres correos idénticos.

¿Resultado? Obviamente, Juan pensará que tu empresa está desesperada o, peor aún, que es incompetente.


4. Muestras insuficientes: el error del tamaño pequeño

Un clásico del mal análisis. Si tus datos provienen de una muestra diminuta, incluso una pequeña anomalía puede torcer los resultados.

¿Un ejemplo habitual que te sonará si trabajas en marketing digital?

Un restaurante analiza las opiniones de sus clientes. Pero solo 10 personas dejaron comentarios esa semana y resulta que la mayoría eran empleados del chef rival.

Las conclusiones son tan confiables como una moneda al aire.

Y no son pocas las veces que he tenido que evitar una bronca del dueño del pequeño o mediano negocio de turno frente a un ataque de pánico por 3 reseñas sospechosamente negativas de las 4 reseñas que hay en Google Maps.

(¿Pero quién, con dos dedos de frente, se sigue tomando en serio las reseñas de Google Maps?)


5. Malas visualizaciones: cuando los gráficos mienten

Es fácil manipular gráficos para que cuenten la historia que queremos. Un eje Y mal ajustado o graciosamente cool con una escala logarítmica o un gráfico circular innecesario o un gráfico lineal aplicado a unas categorías o… pueden confundir más que aclarar, incluso a quien lo hace.

¿Un ejemplo, que veo a menudo?

Un analista presenta un gráfico que muestra un "crecimiento explosivo" de ventas en diciembre, pero el aumento real fue del 0,5%.

Sin un eje bien ajustado, ese pequeño cambio parece un milagro navideño.


La importancia de los procesos ETL

Al final, como ya pude demostrar en el análisis de los contratos adjudicados en el Gobierno de Canarias, los datos pueden contener una infinita cantidad de errores y problemas incluso estando contenidos en una finita cantidad de hechos y atributos.

(Parece una exageración. Es una exageración. Pero una bastante ilustrativa.)

Para que tus datos no se conviertan en tu peor enemigo, los procesos ETL (Extract, Transform, Load) son un salvavidas que no debe obviarse y que debe ir amarrado a tu vida como analista como si no hubiera ninguna otra opción.

En pocas palabras, ETL es el proceso de:

  1. Extraer datos desde múltiples fuentes, incluyendo el combinar o anidar esos datos, además de relacionarlos entre sí, que no se nos olvide.
  2. Transformarlos para darles consistencia, limpieza y uniformidad, eliminando todos esos casos que hemos visto por ahí para arriba, en este artículo.
  3. Cargarlos en un sistema que permita un análisis eficiente y tener una buena base de diseño UX acompañado de un buen porrón de sentido común para lo que viene a continuación.

Supongamos que gestionas datos de ventas de tres sucursales. Una usa dólares, otra euros, y la última tiene datos en yenes. Un proceso ETL se encarga de unificar las monedas, limpiar duplicados y cargar todo en una base de datos lista para el análisis.

¡Adiós caos, hola claridad!

A este proceso que va transcurre a través de la cadena ETL » Analizar » Visualizar » Comunicar hay que añadir uno más que es evaluar, valorar, pedir feedback.

¿Te ayudó el dashboard? ¿Fue claro ese gráfico? ¿Esa métrica te inspiró confianza, se alinea con tus intuiciones basadas en tu experiencia? ¿Y si la contradice, te hizo ver las posibles causas?

Porque esas preguntas te harán volver al ETL una y otra vez.

Porque Los datos no siempre tienen la última palabra. Un analista de datos no solo acepta los números tal como vienen; los cuestiona. ¿Son completos? ¿Son consistentes? ¿Qué historia cuentan? ¿Y qué no están diciendo?

No olvides que los datos son herramientas, no oráculos.

La próxima vez que te enfrentes a una tabla o un gráfico, recuerda: los datos pueden ser poderosos, pero necesitan el contexto, las preguntas correctas y los procesos adecuados para ser útiles.

Así que, querido lector, si quieres evitar caer en las trampas de los datos, recuerda estas lecciones y, sobre todo, invierte en buenos procesos ETL.

Porque los datos son como las historias: si no las cuentas bien, nadie las entiende.