Las metodologías en la Ciencia de los Datos: Foundational vs. CRISP-DM

Gracias por darme amor compartiendo en tu app favorita:

En la era de los macrodatos y la inteligencia artificial, la ciencia de los datos ha emergido como una disciplina crucial para extraer valor de grandes volúmenes de información.

No es que antes no se hiciera ciencia de datos. Es que estaba restringida a núcleos científicos mucho más cerrados que en la actualidad, donde se comienza a difundir ampliamente en la mediana y gran empresa.

(Aún falta una media década para que llegue a la pequeña empresa en forma de herramientas con todo automatizado.)

Sin embargo, el éxito de los proyectos de ciencia de datos no solo depende de la sofisticación de los algoritmos utilizados, sino también de la metodología aplicada para abordar estos proyectos.

Trabajar de manera metodológica asegura que se sigan pasos estructurados y bien definidos, minimizando riesgos y optimizando resultados.

En este artículo exploraré la importancia de este enfoque a partir del curso de certificación profesional en la ciencia de datos de IBM que estoy realizando gracias a FUNDAE

Te presentaré dos de las metodologías más reconocidas en este campo –CRISP-DM y la Metodología Foundational– y te ofreceré una visión fusionada de sus fases, resaltando sus similitudes y diferencias.

La metodología fundacional o Foundational fue desarrollada por John Rollins en IBM y presenta una visión ampliada y detallada en 10 pasos o etapas que se asemejan o siguen el mismo recorrido que la metodología CRISP-DM desarrollada en la década de 1990s.

John Rollins añade a los pasos de CRISP-DM un paso final denominado retroalimentación pasando de una metología que empieza y acaba a otra que es iterativa de manera permanente (o al menos, mientras haya presupuesto).

Metodología CRISP-DM

CRISP-DM (Cross-Industry Standard Process for Data Mining) es una de las metodologías más utilizadas y aceptadas en el ámbito de la minería de datos y la ciencia de datos.

Desarrollada en los años 90, CRISP-DM proporciona un marco de referencia claro y detallado que guía a los equipos a través de todo el ciclo de vida de un proyecto de minería de datos. Sus fases principales son:

  • Comprensión del Negocio: Identificación de los objetivos y requisitos del negocio.
  • Comprensión de los Datos: Obtención y familiarización con los datos.
  • Preparación de los Datos: Limpieza y transformación de los datos para el análisis.
  • Modelado: Aplicación de técnicas de modelado y calibración de parámetros.
  • Evaluación: Evaluación de los modelos y su alineación con los objetivos del negocio.
  • Despliegue: Implementación del modelo en un entorno real.

Metodología Foundational

La Metodología Foundational de John Rollins de IBM también es ampliamente utilizada y ofrece un enfoque estructurado para proyectos de ciencia de datos.

Las fases de esta metodología son:

  • Entendimiento del Negocio: Similar a CRISP-DM, se centra en entender los objetivos del negocio.
  • Enfoque Analítico: Aquí el científico de datos elige entre seguir un camino descriptivo o de diagnóstico, el camino predictivo o el camino prescriptivo y si utilizará técnicas de aprendizaje automático.
  • Requisitos de Datos: Aquí identificamos el contenido, los formatos y las fuentes de datos que sean necesarios según el enfoque analítico elegido.
  • Recopilación de Datos: Con la información de los pasos previos empezamos a recabar los datos tomando decisiones sobre cantidad y calidad, utilizando estadística descriptiva y visualización para evaluar lo que tienes entre manos. También empiezas a prestar atención a los missing, datos inválidos, etc.
  • Comprensión de los Datos: Evaluación de la calidad y relevancia de los datos valorando además si serán útiles para responder a la pregunta o hipótesis planteada inicialmente, utilizando estadística descriptiva o predictiva para tomar decisiones antes de seguir adelante.
  • Preparación de los Datos: Selección, limpieza, y transformación de los datos. Después de este paso los datos deben quedar perfectos y utilizables para la construcción del modelo que pretendemos que solucione la pregunta inicial.
  • Modelado : Creación y calibración de modelos predictivos o descriptivos.
  • Evaluación: Evaluación de los resultados y revisión de los pasos realizados a través de diferentes medidas de diagnóstico y de significación estadística.
  • Despliegue: Despliegue del modelo en producción y monitoreo de su rendimiento.
  • Retroalimentación: Las partes que han participado en todo el proyecto así como quienes deben ser beneficiarios (usuarios) aportan su valoración y visión sobre el modelo implementado, utilizando estos comentarios para reiniciar el remodelado y reajuste del modelo o, incluso, avanzar aún más atrás en los pasos dados.

Relación fusionada de ambas metodologías

Aunque CRISP-DM y la Metodología Foundational de John Rollins (IBM) presentan algunas diferencias en terminología y enfoque, en su esencia, siguen una estrategia similar: ambas comienzan con una comprensión profunda del negocio y los datos, pasan por una preparación meticulosa y modelado, concluyendo con la evaluación y despliegue del modelo.

La elección entre una u otra puede depender de las preferencias personales del equipo de datos, el contexto del proyecto, o las herramientas específicas utilizadas.

Sin embargo, lo más importante es la aplicación de un enfoque metodológico y estructurado, que asegura la consistencia, la calidad y el éxito en los proyectos de ciencia de datos.

En resumen, la clave está en seguir una metodología robusta que guíe cada paso del proceso, minimizando riesgos y maximizando el valor obtenido de los datos.

A continuación, presentamos una visión fusionada de ambas metodologías, destacando las fases y pasos que incorpora cada una y sus diferencias:

Comprensión del Negocio / Entendimiento del Negocio:

Ambas metodologías comienzan con una fase para entender los objetivos y requisitos del negocio. Este paso es crucial para alinear los objetivos técnicos con los objetivos estratégicos de la organización.

Enfoque Analítico (Foundational):

La Metodología Foundational incluye una fase específica para determinar el enfoque analítico, eligiendo entre caminos descriptivos, diagnósticos, predictivos o prescriptivos, y las técnicas a utilizar.

Esta fase no tiene un equivalente directo en CRISP-DM, pero su concepto está implícito en la fase de Comprensión del Negocio de CRISP-DM.

Requisitos de Datos (Foundational):

Foundational identifica explícitamente los requisitos de datos necesarios según el enfoque analítico. Esta fase no se encuentra explícitamente en CRISP-DM, pero se puede considerar parte de la Comprensión de los Datos.

Recopilación de Datos / Comprensión de los Datos:

Ambas metodologías incluyen una fase para obtener y evaluar los datos disponibles, asegurando su relevancia y calidad.

Foundational separa la recopilación y la comprensión en dos fases distintas, mientras que CRISP-DM las combina en Comprensión de los Datos.

Preparación de los Datos:

En ambas metodologías, esta fase implica la selección, limpieza y transformación de los datos. Esta es una etapa crítica para garantizar que los datos estén en el formato adecuado para el análisis.

Modelado:

La fase de modelado es similar en ambas metodologías, centrándose en la aplicación de técnicas de modelado y la calibración de parámetros para crear modelos predictivos o descriptivos.

Evaluación:

Ambas metodologías incluyen una fase de evaluación para asegurar que los modelos cumplen con los objetivos del negocio y son eficaces.

Foundational detalla el uso de medidas de diagnóstico y significación estadística en esta fase.

Despliegue / Implementación:

Aunque se utilizan términos ligeramente diferentes, ambas metodologías concluyen con una fase de despliegue o implementación, donde el modelo se pone en producción y se monitorea su rendimiento.

Retroalimentación (Foundational):

Foundational incluye una fase adicional de retroalimentación para recopilar valoraciones y ajustar el modelo según las necesidades y comentarios de las partes involucradas.

Esta fase es una extensión del proceso de evaluación y no tiene un equivalente directo en CRISP-DM, pero se puede considerar implícita en el ciclo iterativo de mejora continua.