La Maldición de la Dimensión en Machine Learning

mirror 510976 1280

¿Sabías que a medida que aumenta el número de dimensiones, la distancias se vuelven menos discriminativas? A este efecto se le conoce con el nombre de la Maldición de la Dimensión (Curse of Dimensionality) y tiene un gran impacto en técnicas de aprendizaje automático basadas en distancias tales como K-Means y KNN (los k vecinos …

Leer más

Feliz San Valentín menéame

Feliz San Valentín menéame

¡Feliz San Valentín! Vamos a celebrarlo haciendo un análisis de todas las noticias de portada de menéame desde el último San Valentín. Para el análisis, usaremos técnicas de Procesamiento del Lenguaje Natural y Visualización de datos. Quisiera agradecer a Alfonso Martínez Heras su colaboración en este proyecto. Alfonso se ha encargado de crear un web scrapper para obtener estos artículos …

Leer más

Clustering (Agrupamiento), K-Means con ejemplos en python

Algoritmos de Clustering

El clustering consiste en la agrupación automática de datos. Es un tipo de aprendizaje automático no-supervisado. En castellano se denomina agrupamiento. Vamos a ver en más detalle en qué consiste el clustering, el algoritmo de agrupamiento más popular: K-Means y algunos ejemplos en python. Clustering – Agrupamiento El clustering consiste en la agrupación automática de …

Leer más

Precision, Recall, F1, Accuracy en clasificación

Precision, Recall, F1, Accuracy, Confusion Matrix

Cuando necesitamos evaluar el rendimiento en clasificación, podemos usar las métricas de precision, recall, F1, accuracy y la matriz de confusión. Vamos a explicar cada uno de ellos y ver su utilidad práctica con un ejemplo. Términos es Español Estas métricas también tienen su correspondiente nombre en español, pero es importante que sepas su nombre …

Leer más

Basura Espacial: competición con machine learning

Kelvins Collision Avoidance Challenge

La Agencia Espacial Europea ha creado una competición de machine learning para predecir el riesgo de colisión entre basura espacial y satélites de observación de la Tierra. La competición empieza oficialmente el 16 de Octubre. A partir de ese momento será posible descargar los datos y enviar soluciones. La competición finaliza el 16 de Diciembre …

Leer más

Avances en la generación de caras con GANs

Caras generadas a partir de una imagen y una pose

Los modelos generativos, también llamados GANs (Generative Adversarial Networks), permiten la creación de datos (e.g. imágenes) que no existen. En un artículo anterior vimos como los modelos generativos se habían utilizado para generar fotos de habitaciones de hoteles, caras humanas e incluso música. El último avance en la generación de caras nos viene de la …

Leer más

Random Forest (Bosque Aleatorio): combinando árboles

random-forest-bosque-aleatorio

Un Random Forest (Bosque Aleatorio), es una técnica de aprendizaje automático muy popular. Los Random Forests tienen una capacidad de generalización muy alta para muchos problemas. Limitaciones de los Árboles de Decisión Los árboles de decisión tienen la tendencia de sobre-ajustar (overfit). Esto quiere decir que tienden a aprender muy bien los datos de entrenamiento pero …

Leer más

Ensembles: voting, bagging, boosting, stacking

Ejemplo en Ensemble por Votación

Un ensemble es un conjunto de modelos de machine learning. Cada modelo produce una predicción diferente. Las predicciones de los distintos modelos se combinan para obtener una única predicción. La ventaja que obtenemos al combinar modelos diferentes es que como cada modelo funciona de forma diferente, sus errores tienden a compensarse. Esto resulta en un …

Leer más

Aguathon: mi solución al primer Hackathon del Agua

Río Ebro a su paso por Zaragoza

En este artículo explico mi solución al Aguathon: el primer Hackathon del Agua, organizado por ITAINNOVA. Introducción al Aguathon: el Hackathon del Agua de ITAINNOVA El Instituto Tecnológico de Aragón ha organizado el 1er Hackathon del Agua, “AGUATHON”. A continuación vamos a ver las partes más relevantes para entender en qué consiste este reto, por qué es …

Leer más

Árboles de Decisión con ejemplos en Python

Árbol de Decisión para el problema de clasificación Iris

Los árboles de decisión son una técnica de aprendizaje automático supervisado muy utilizada en muchos negocios. Como su nombre indica, esta técnica de machine learning toma una serie de decisiones en forma de árbol. Los nodos intermedios (las ramas) representan soluciones. Los nodos finales (las hojas) nos dan la predicción que vamos buscando. Los árboles …

Leer más