Bueno, creo que ya está bien hablar de AdSense. Lo dicho, dicho está. No lo están haciendo bien. Están rechazando webs aplicando mal sus propias políticas. Es lo que hay, no queda otra. Y las alternativas a AdSense son aún peores.
En fin, mientras resuelvo eso o me aclaro por qué la web dedicada a Wuthering Waves no indexa por esas palabras pero sí por otras muchísimas como nombres alternativos, búsquedas longtail y demás, que esa es otra, pues me he apuntado en un curso sobre Ciencia de Datos de IBM que, por supuesto, no voy a pagar yo, sino que es gracias a una beca de DigitalízatePLUS de FUNDAE.
Gracias al Programa de Becas de IBM y a un acuerdo con la Fundación Estatal podías acceder a un buen número de formaciones vinculadas con Python, IA, Data Science y otras formaciones muy interesantes. Yo me enteré tarde pero accedí a una que poca gente ve con interés pero que a mí me apasiona.
Así que aclarado el contexto de por qué este artículo, vamos a empezar a describir qué es eso de la Ciencia de Datos y cuáles son sus fundamentos.
Qué es la Ciencia de Datos y cuáles son sus fundamentos básicos
La Ciencia de Datos es un campo interdisciplinario que utiliza métodos, procesos, algoritmos y sistemas para extraer conocimiento y perspectivas de datos en diversas formas, tanto estructurados como no estructurados.
Se trata de un área en constante evolución que combina habilidades de diversas disciplinas como matemáticas, estadística, informática y dominio específico del negocio, para analizar e interpretar datos que pueden informar decisiones empresariales y científicas.
Definición y propósito de la Ciencia de Datos
La Ciencia de Datos, en esencia, es el estudio de los datos. Implica extraer, limpiar, analizar y modelar datos con el fin de obtener información valiosa y tomar decisiones informadas.
El propósito principal de la Ciencia de Datos es descubrir patrones y relaciones en los datos, crear modelos predictivos y obtener información accionable que pueda ser utilizada para resolver problemas complejos.
La primera vez que comencé a trabajar con datos con este enfoque fue en 1998 en el Servicio del Plan de Salud e Investigación, tanto para el proyecto del 1º Plan de Salud de Canarias como para la 2º Encuesta de Salud regional.
A raíz de estos cursos me formé en estadística y desarrollé tanto programas como bases de datos para operar, analizar y extraer conocimiento. Eso eran los inicios. Ni siquiera se hablaba de ciencia de datos. Pero es lo que hacía.
Coger la base de datos de altas hospitalarias, las respuestas a cuestionarios de salud o de calidad de vida como EQ-5D o el SF-36, datos presupuestarios de salud pública, datos de servicios atendidos en primaria y un largo etcétera. Se depuraban, filtraban, estandarizaban y se convertían en datos que generaban conocimiento. Básicamente estadística descriptiva pero en algunos casos intentábamos construir modelos con estadística inferencial.
Pero, una vez aquello terminó no encontré en el sector privado canario a ninguna empresa que le interesara algo así. Eso de analizar datos y obtener conocimiento quedaba a años luz del empresario medio en estas islas. Y no hablo ya del pequeño empresario, hablo del grande, del que mueve meuros en sus cuentas.
En la era digital actual, la cantidad de datos generados diariamente es inmensa. Estos datos provienen de diversas fuentes como transacciones en línea, redes sociales, sensores IoT (Internet de las Cosas), registros médicos, entre otros.
La Ciencia de Datos permite a las organizaciones aprovechar estos datos para obtener ventajas competitivas, mejorar sus procesos y ofrecer productos y servicios personalizados.
Sin embargo, creo, que en Canarias aún estamos lejos de que la necesidad de los científicos de datos se extienda. Sin embargo en mi último tramo profesional de vida, los siguientes 15 años, es una de las cosas que me gustaría hacer y en lo que me gustaría profundizar porque, te sonará a friki, pero es divertido.
Fundamentos básicos de la Ciencia de Datos
La Ciencia de Datos es un campo dinámico y en rápida expansión que juega un papel crucial en la era de la información.
Sus fundamentos básicos en estadística, programación, manipulación de datos, machine learning y herramientas especializadas permiten a los científicos de datos transformar datos brutos en insights valiosos.
A medida que la cantidad de datos sigue creciendo, la Ciencia de Datos continuará siendo una disciplina esencial para extraer valor y tomar decisiones basadas en datos.
Así que vamos a ver qué ramas del conocimiento necesitas adquirir y profundizar para convertirte en un científico de datos.
Estadística y probabilidades
- Estadística descriptiva:
Involucra la recopilación, presentación y descripción de datos. Incluye medidas como la media, mediana, moda, desviación estándar y varianza. Estas herramientas ayudan a resumir grandes conjuntos de datos en una forma comprensible. - Estadística inferencial:
Permite hacer predicciones o inferencias sobre una población basada en una muestra de datos. Implica el uso de pruebas de hipótesis, intervalos de confianza y p-valores. - Distribuciones de probabilidad:
Las distribuciones como la normal, binomial y Poisson son fundamentales para modelar la incertidumbre y el comportamiento de los datos.
Programación
- Python:
Es el lenguaje más popular en Ciencia de Datos debido a su simplicidad y a la gran cantidad de bibliotecas disponibles como Numpy, pandas, matplotlib, seaborn y scikit-learn.
Estas bibliotecas permiten realizar desde la manipulación de datos hasta la creación de modelos predictivos. - Lenguaje R:
Otro lenguaje ampliamente utilizado, especialmente en la comunidad estadística, con poderosas herramientas para análisis de datos y visualización, como dplyr y ggplot2.
Manipulación y análisis de datos
- Limpieza de datos:
Implica el tratamiento de valores nulos, la eliminación de duplicados y la gestión de outliers. La calidad de los datos es crucial para obtener resultados precisos. - Transformación de datos:
Incluye técnicas como la normalización y estandarización, que preparan los datos para el análisis. El encoding de variables categóricas es otra parte importante de la transformación. - Análisis exploratorio de datos (EDA):
Es el proceso de analizar conjuntos de datos para resumir sus características principales, a menudo con métodos visuales. Ayuda a descubrir patrones y anomalías en los datos.
Modelado y algoritmos de machine learning
- Modelos supervisados:
Estos modelos se entrenan utilizando datos etiquetados. Algunos ejemplos incluyen la regresión lineal y logística, árboles de decisión, bosques aleatorios y máquinas de vectores de soporte (SVM). - Modelos no supervisados:
Utilizados para encontrar estructuras ocultas en datos no etiquetados. Incluyen algoritmos de clustering como K-means y jerárquico, y técnicas de reducción de dimensionalidad como PCA (Análisis de Componentes Principales) y t-SNE. - Deep Learning:
Una subrama de Machine Learning que utiliza redes neuronales profundas para modelar datos complejos como imágenes y texto.
Ejemplos incluyen redes neuronales convolucionales (CNN) y redes neuronales recurrentes (RNN).
Validación y evaluación de modelos
- División de datos:
Separa los datos en conjuntos de entrenamiento y prueba, y a veces en validación cruzada, para evaluar el rendimiento del modelo. - Métricas de evaluación:
Para modelos de clasificación, las métricas incluyen precisión, recall, F1-score y AUC-ROC. Para modelos de regresión, se utilizan el error cuadrático medio (MSE) y el coeficiente de determinación (R^2). - Ajuste de hiperparámetros:
Técnicas como grid search y random search ayudan a encontrar los mejores parámetros para los modelos.
Herramientas y tecnologías
- Bases de datos y SQL:
El conocimiento de SQL es esencial para extraer y manipular datos almacenados en bases de datos. - Big Data:
Herramientas como Apache Hadoop y Apache Spark son cruciales para procesar y analizar grandes volúmenes de datos que no pueden manejarse con técnicas tradicionales. - Visualización de datos:
Herramientas como Tableau y Power BI, y librerías en Python como matplotlib, seaborn y plotly, son fundamentales para presentar los resultados de manera clara y comprensible.
Aplicaciones de la Ciencia de Datos
- Procesamiento de Lenguaje Natural (NLP):
Implica el análisis y modelado de texto para tareas como la traducción automática, el análisis de sentimientos y la generación de texto. Herramientas como NLTK, spaCy y transformers como BERT y GPT son ampliamente utilizadas. - Visión por computadora:
Se enfoca en la interpretación de imágenes y videos. Las CNN se utilizan para tareas como el reconocimiento facial, la detección de objetos y el análisis de imágenes médicas. - Análisis de series temporales:
Implica la predicción de valores futuros basados en datos históricos. Modelos como ARIMA y SARIMA se utilizan para la previsión de ventas, análisis financiero y detección de anomalías.