Máster Universitario en Software y Sistemas

Descubrimiento de Conocimiento en Bases de Datos

Profesor (Coordinador):
Juan Pedro Caraça-Valente
jpvalente@fi.upm.es
Profesor:
Aurora Pérez
aurora@fi.upm.es

Semestre

Primer semestre

Créditos

4 ECTS

Resumen

Las técnicas de Descubrimiento de Conocimiento (o de Data Mining) en grandes volúmenes de información son ampliamente utilizadas hoy en día en diferentes dominios como la medicina, entornos bancarios, sistemas industriales, etc. y tienen una gran variedad de aplicaciones como por ejemplo el análisis de datos, la detección de fraude, el análisis de riesgos, campañas de mailing, etc.

En esta asignatura se revisarán todas las etapas del proceso de Descubrimiento de Conocimiento y se enumerarán las técnicas más importantes para cada etapa. Se hará hincapié en las técnicas de limpieza y preprocesado de los datos, frecuentemente olvidadas.

A continuación se abordarán las principales técnicas de Data Mining incluyendo técnicas de Clasificación, Clustering y Reglas de Asociación. Los algoritmos genéticos han tenido un gran auge en los últimos años, surgiendo numerosas aplicaciones de dichos algoritmos en el área de Descubrimiento de Conocimiento, por lo que también serán tratados en profundidad en esta asignatura.

Recientemente se ha producido una tendencia a la incorporación de información de carácter temporal en grandes Bases de Datos para conservar información histórica, para poder analizar la evolución de una variable o conocer los instantes en que un dato es válido. Además, hay dominios donde la información se presenta mayoritariamente en forma de Series Temporales las cuales requieren un tratamiento muy especializado. Por ello, se abordarán las técnicas de descubrimiento de información en series temporales ya que este tipo de datos suponen un desafío a las técnicas tradicionales de Data Mining y requieren el uso de nuevas soluciones.

Objetivos

Programa

  1. Introducción
    1. Reseña histórica
    2. Conceptos básicos
  2. Proceso de Descubrimiento de Conocimiento
    1. Etapas del Proceso
    2. Preprocesamiento de los datos
  3. Herramientas de KDD
    1. Visión general
    2. Una herramienta de KDD: WEKA
  4. Técnicas de Data Mining
    1. Clasificación
    2. Clustering
    3. Algoritmos Genéticos
    4. Data Mining en series temporales
  5. Evaluación de Resultados
    1. Importancia y objetivos
    2. Técnicas de evaluación y validación

Bibliografía

Método de Evaluación

Para la evaluación de la asignatura se tendrá en cuenta, por una parte, la asistencia y participación en clase y, por otra, la práctica de la asignatura.

Para la Evaluación Continua se considerará la asistencia a clase, la participación activa del alumno y los ejercicios evaluables que se planteen en clase.

La práctica de la asignatura se evaluará de acuerdo con las tres fases que se describen a continuación y los pesos correspondientes.

Práctica

La parte práctica consta de un trabajo que se realizará en grupos de 2 personas, pudiendo realizarse excepcionalmente de forma individual. El trabajo se realizará de forma incremental y se presentará en las siguientes entregas:

La práctica completa será presentada en clase. Cada grupo dispondrá de 15 minutos para la presentación oral más 5 minutos de preguntas.

Normas de calificación

La asignatura se evaluará sobre 10 puntos, repartidos en 3 puntos para la evaluación continua y 7 para la práctica. Para superar la asignatura será necesario asistir al menos a un 70% de las clases y obtener una nota no inferior a 5 puntos en la calificación final.

Las 3 entregas de ejercicios prácticos son de carácter obligatorio y se evaluarán según los pesos asignados en la siguiente tabla.

Más información:

Esta tabla muestra la actividad y el peso que tiene cada una de dichas actividades

Actividad Peso
Práctica. Fase 1 10%
Práctica. Fase 2 20%
Práctica. Fase 3 10%
Presentación oral de la práctica 30%
Asistencia a clase, participación y ejercicios evaluables 30%

Las fechas tanto de entrega como de publicación de notas de cada parte de la práctica se publicarán en sus enunciados.

En las convocatorias extraordinarias se podrán entregar aquellas partes de la práctica que queden pendientes. No se volverá a realizar la evaluación continua, por lo que la nota de la asignatura se obtendrá de la práctica. No obstante, se podrá plantear un examen que substituya la evaluación continua en estas convocatorias.

Idioma en que se imparte

Español (documentación en Inglés)

Competencias Específicas

Más información:

Esta tabla muestra el código, la descripción y el nivel de cada una de las competencias específicas de la asignatura

Código Competencia Nivel
CEM2 Adquirir un nivel avanzado de conocimientos que permita el análisis y la sintesis de soluciones a problemas que requieran aproximaciones novedosas para la definición de la infraestructura computacional, el procesamiento y el análisis de datos de diversa naturaleza. S
CEM7 Conocer los fundamentos teóricos y capacitarse para evaluar las diversas técnicas disponibles para la extracción y descubrimiento de conocimiento a partir de grandes volúmenes de datos, y temas de investigación relacionados S

Resultados de Aprendizaje

Más información:

Esta tabla muestra cada el código, la descripción, las competencias asociadas y el nivel de adquisición de cada uno de los resultados de aprendizaje de la asignatura

Código Resultado de Aprendizaje Competencias asociadas Nivel de Adquisición
RA-APDI-11 Ser capaz de analizar un dominio para determinar la relevancia de sus características temporales y las tareas de descubrimiento de conocimiento que se podrían plantear CEM2, CEM7 S
RA-APDI-12 Ser capaz de utilizar las técnicas de descubrimiento de conocimiento y su aplicabilidad en cada caso CEM2, CEM7 S
RA-APDI-13 Ser capaz de realizar una evaluación completa del funcionamiento y utilidad de un proyecto de este tipo. CEM2, CEM7 S

Guía de Aprendizaje

Guía de aprendizaje de la asignatura: Descubrimiento de Conocimiento en Bases de Datos