Material adicional del libro Minería de datos, algoritmos y modelos

En esta página encontraréis ejercicios prácticos en Jupyter que os permitirán trabajar más a fondo los contenidos aprendidos en el libro Minería de datos, modelos y algoritmos.

La mejor forma de trabajar estos ejercicios es seguir los capítulos del libro, descargarse los archivos de esta página y abrirlos desde un navegador web accediendo a tu instalación Jupyter.

Introducción

Este libro es el resultado de 10 años de docencia en minería de datos dentro del Máster de Inteligencia de Negocio de la UOC, a través de los cuales hemos reflexionado junto con nuestros alumnos, la mejor manera de aproximarse al mundo de los algoritmos más habituales en este campo de conocimiento.

Jupyter como herramienta de programación R, Python y Julia. Especializada en minería de datos, nos ha parecido una plataforma excelente para proponer prácticas en las que el estudiante pueda acompañar la comprensión del contenido del libro.

Instalación de componentes

Recomendamos los siguientes enlaces para poder instalar los componentes de software necesarios para seguir los ejercicios propuestos:

  1. Lenguaje de programación R
  2. Entorno de trabajo Jupyter
  3. Kernel R para Jupyter

Capítulo 3. Preparación de los datos

En este ejemplo se trabajan funciones de R para explorar visualmente y mediante descriptores estadísticos el juego de datos.

  1. B2.332_Students.csv
  2. Preparación de los datos

Capítulo 6. Extracción y selección de atributos

Este ejemplo muestra como extraer los valores singulares en un conjunto de datos y valorar su representatividad.

  1. Extracción de características
  2. En este ejemplo se buscan correlaciones entre las variables y se descubren variables con un mayor peso predictivo.

  3. Análisis de componentes principales
  4. Este ejemplo muestra como extraer los componentes principales en un conjunto de datos y valorar su representatividad.

  5. Descomposición en valores singulares

Capítulo 11. Máquinas de soporte vectorial

En este ejemplo se muestra cómo utilizar las máquinas de soporte vectorial a partir del paquete R e1071. Se trabajan los distintos modelos: lineal, radial, polinomial y sigmoidal. También se comparan los resultados de trabajar con dos dimensiones o con todas.

  1. Máquinas de soporte vectorial

Capítulo 12. Redes neuronales

En este ejemplo se trabaja con el paquete R neuralnet. Se ven las distintas posibilidades de una red neuronal: capas, neuronas y criterio de parada.

  1. Redes neuronales

Capítulo 13. Árboles de decisión

Los siguientes ejemplos crean un árbol de decisión con el algoritmo C5.0. Posteriormente se intenta mejorar la calidad con técnicas de boosting, VSD y PCA. También se muestra como evaluar la capacidad predictiva del modelo generado y ejemplos de árboles generados con poda o sin.

  1. Creación de un árbol de decisión con el algoritmo C5.0
  2. Mejora del árbol con técnicas de boosting
  3. Capacidad predictiva del modelo generado
  4. Podado del árbol
  5. Creación de arbol de decisión y mejora con VSD
  6. Creación de arbol de decisión y mejora con PCA

Capítulo 15. Combinación de clasificadores

En los siguientes ejemplos se mejora el resultado de un clasificador mediante las técnicas de Bagging, Boosting, Random Forest y Stacked.

  1. Bagging
  2. Boosting
  3. Random Forest
  4. Stacked