Relación entre el Big Data (macrodatos) y la minería de datos

Sigo con mis apuntes sobre la ciencia de los datos, hoy con el módulo sobre la relación entre los macrodatos (o el tan mentado big data) y la minería de datos, que es algo que los administradores y expertos en SQL con conocimiento en estadística y representación gráfica quizás les suene de etapas pasadas.

Al menos a mí sí, como ya conté en el primer artículo sobre este curso de IBM financiado por FUNDAE a través de digitalízatePLUS.

Y es que la era digital ha traído consigo una explosión de datos de magnitudes que no nos podemos ni imaginar. Lo que conocemos como macrodatos o Big Data es de unas dimensiones tan abrumadoras como intentar imaginar el tamaño del Universo o tan siquiera las dimensiones de la Vía Láctea o de lo que significa realmente un año-luz.

Estos datos no solo son vastos en volumen, sino que también presentan una variedad de formas, tanto como datos estructurados (una guía telefónica) como datos no estructurados (los vídeos de YouTube).

La capacidad para analizar y extraer valor de este inmenso conocimiento humano en forma de unos y ceros está transformando diversas industrias y aspectos de nuestra vida cotidiana.

En estas notas, exploraré los fundamentos de los macrodatos, su relación con la minería de datos y las herramientas tecnológicas que posibilitan esta revolución.

Al fin y al cabo no es solo un curso que hago para certificar algo que ya conozco sino también para poner orden a un conocimiento y una experiencia pasada e intentar sacarle provecho en un futuro próximo.

Así que empecemos por el principio: qué es eso de los «macrodatos».

Qué son los macrodatos

Los macrodatos se refieren a conjuntos de datos tan grandes y complejos que las aplicaciones de procesamiento de datos tradicionales no son adecuadas para manejarlos. En otras palabras, tu MySQL no sirve y PostgreeSQL tampoco.

Las cinco características clave de los macrodatos son:

Valor: La expectativa de obtener valor a partir del análisis de datos.
Volumen: La cantidad masiva de datos generados y almacenados.
Velocidad: La rapidez con la que se generan y procesan los datos.
Variedad: La diversidad de tipos de datos, incluyendo estructurados y no estructurados.
Veracidad: La calidad y fiabilidad de los datos.

Impacto de los macrodatos en la sociedad actual

Los macrodatos están impulsando la transformación de la sociedad a través de una también profunda transformación digital digital en múltiples sectores:

Negocios: Permiten análisis en tiempo real para mejorar la toma de decisiones y la eficiencia operativa.
Salud: Los datos masivos ayudan a predecir brotes de enfermedades y personalizar tratamientos.
Deportes: Los análisis de datos optimizan el rendimiento de los atletas y las estrategias de juego.
Educación: Los macrodatos permiten personalizar la enseñanza y mejorar los resultados educativos al analizar el rendimiento de los estudiantes y adaptar los materiales educativos a sus necesidades.
Transporte: La analítica de macrodatos optimiza rutas, mejora la gestión del tráfico y reduce los tiempos de espera, así como los costos operativos en logística y transporte público.
Seguridad Pública: Ayudan a predecir y prevenir delitos mediante el análisis de patrones de comportamiento y la identificación de áreas de alto riesgo, mejorando la eficiencia de las fuerzas de seguridad.

Y estos seis ejemplos son solo la punta del iceberg. La capacidad de extraer valor de estos datos está cambiando tanto la forma en que vivimos y trabajamos a la vez que no somos conscientes de lo que está sucediendo que, de ser así, de realmente ser capaces de percibir y entender las repercusiones de lo que ahora mismo ocurre en el mundo alrededor de la ciencia de los datos, seguramente nos escandalizaríamos y sentiríamos pánico. Como mínimo vértigo.

A mí, en cualquier caso, me gusta todo esto. Me encanta. Es un momento histórico y único para la humanidad el que estoy pudiendo vivir en primera persona. Es absolutamente apasionante.

Computación en la nube y macrodatos

La computación en la nube ha sido fundamental para manejar y procesar macrodatos entre otras cosas porque permite, al igual que un cerebro, que múltiples sistemas cooperen y trabajen conjuntamente para obtener un fin mayor que un único sistema, por muy potente que sea, no sería capaz de realizar hoy en día.

Las características esenciales del concepto nube (cloud computing) incluyen:

Bajo demanda: Acceso a recursos computacionales cuando se necesitan (básicamente pagas por uso y no por propiedad, lo que abarata los recursos de una manera inimaginable).
Acceso a la red: Disponibilidad a través de Internet (también es su principal desventaja, si no hay conexión, no hay paraíso).
Agrupación de recursos: Distribución eficiente de recursos entre múltiples usuarios (al usarlos bajo demanda, éstos pueden estar disponibles constantemente para múltiples personas y fines).
Elasticidad: Escalabilidad para aumentar o reducir recursos según la demanda (al ser bajo demanda, no solo están disponibles cuando los necesitas sino que pueden escalar -hacia arriba o hacia abajo- en función de la necesidad, y con ello los costes derivados de su uso.
Servicio mesurado: Pago por uso, lo que permite un control de costos eficiente. Incluso, uso gratuito a cambio de tus propios datos, hasta ciertos niveles.

Estas características permiten a las organizaciones manejar grandes volúmenes de datos sin la necesidad de invertir en infraestructura propia.

Las tecnologías en la nube proporcionan el entorno necesario para el procesamiento de macrodatos, permitiendo acceder a herramientas avanzadas de análisis y almacenamiento.

Herramientas para el manejo de macrodatos

Las herramientas de código abierto son esenciales para el análisis de macrodatos.

Entre las más populares, y de las que debes aprender como se usan, se encuentran:

Apache Hadoop: Proporciona almacenamiento y procesamiento distribuido a través de clústeres de ordenadores.
Apache Hive: Permite consultas y análisis de grandes conjuntos de datos sobre Hadoop.
Apache Spark: Ofrece un motor de procesamiento de datos generalizado para grandes volúmenes de datos.

Estas herramientas aprovechan las ventajas de la computación en la nube para procesar y analizar macrodatos de manera eficiente.

¿Y qué tiene esto que ver con la minería de datos? Mucho y todo.

Minería de Datos: El proceso de extraer valor de los macrodatos

La minería de datos es el proceso de descubrir patrones y conocimiento a partir de grandes conjuntos de datos.

Este proceso se divide en seis pasos clave:

Establecimiento de objetivos: Identificar las preguntas clave que se desean responder y los beneficios esperados, teniendo en cuenta además los potenciales costos, ya que éstos no deberían de superar a los beneficios.
Selección de fuentes de datos: Identificar y planificar la recolección de datos relevantes de múltiples fuentes, tanto existentes como no existentes. Por ejemplo, una encuesta a una base de datos de contactos de usuarios de una determinada plataforma, son datos que ahora no existen pero que existirán una vez se ponga en marcha.
Preprocesamiento: Limpiar y preparar los datos eliminando atributos irrelevantes y manejando datos faltantes. No se trata de convertir datos. Se trata, antes de eso, de eliminar, fusionar o reconvertir valores y, en general, pasar la escoba, dejando solo lo que pueda tener utilidad.
Transformación de datos: Convertir los datos a un formato adecuado para el análisis. Aquí también hablamos de fusionar y reconvertir pero no tanto de valores sino de datos (campos) en su conjunto. Podemos convertir un dato numérico en un dato cualitativo (malo, regular, bueno y muy bueno, por ejemplo). Podemos convertir varios campos en uno como un total de ingresos anuales a partir de un conjunto de campos con ingresos por trabajo, por rentas, etc.
Extracción de datos: Aplicar métodos y algoritmos de análisis de datos y aprendizaje automático. Aquí empezamos a entrar en la chicha del asunto ya que intentamos entender lo que cuentan los datos para empezar a extraer conocimiento. Puedes empezar por lo más elemental, la estadística descriptiva, pero a partir de ahí hay todo un mundo de algoritmos y métodos que buscan patrones sobre los que establecer preguntas (hipótesis).
Evaluación: Probar y validar los resultados obtenidos para asegurar su precisión y utilidad. Y una vez que planteas hipótesis, creas modelos o estableces patrones predictivos, toca probarlos a partir de nuevos datos o sometiendo lo hallado a situaciones de estrés. ¿Qué pasa si…? ¿Y si en vez de esto ocurre aquello…?

Este proceso iterativo asegura que los modelos y análisis se mejoren continuamente, proporcionando información valiosa para la toma de decisiones.

Proceso iterativo porque los datos no dejan de crecer, así que el proceso no deja de ejecutar tanto en cuanto el proyecto en cuestión siga vivo.

La propia evaluación de los resultados mejora las propias hipótesis, preguntas, métodos, patrones o cualquier otra cosa que sea conclusión de la iteración anterior.

Resumen sobre macrodatos y minería de datos

Los macrodatos y la minería de datos están transformando la manera en que las organizaciones operan y toman decisiones.
La disponibilidad de grandes volúmenes de datos, junto con las herramientas y tecnologías avanzadas de la nube, permiten a las organizaciones extraer valor y obtener insights accionables.
A medida que avanzamos, la importancia de los macrodatos y la minería de datos solo crecerá, impulsando innovaciones y mejoras en todos los sectores de la sociedad.

Referencias para ratones de biblioteca

Provost, F., & Fawcett, T. (2013). Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking. O’Reilly Media.
Chen, M., Mao, S., & Liu, Y. (2014). Big Data: A Survey. Mobile Networks and Applications, 19(2), 171-209.
Hashem, I. A. T., Yaqoob, I., Anuar, N. B., Mokhtar, S., Gani, A., & Khan, S. U. (2015). The rise of «big data» on cloud computing: Review and open research issues. Information Systems, 47, 98-115.
Jin, X., Wah, B. W., Cheng, X., & Wang, Y. (2015). Significance and challenges of big data research. Big Data Research, 2(2), 59-64.
Manyika, J., Chui, M., Brown, B., Bughin, J., Dobbs, R., Roxburgh, C., & Byers, A. H. (2011). Big data: The next frontier for innovation, competition, and productivity. McKinsey Global Institute.