Descubrimiento de Conocimiento en Bases de Datos

Profesor (Coordinador):
Juan Pedro Caraça-Valente
jpvalente@fi.upm.es
Profesor:
Aurora Pérez
aurora@fi.upm.es

Semestre

Primer semestre

Créditos

4 ECTS

Resumen

Las técnicas de Descubrimiento de Conocimiento (o de Data Mining) en grandes volúmenes de información son ampliamente utilizadas hoy en día en diferentes dominios como la medicina, entornos bancarios, sistemas industriales, etc. y tienen una gran variedad de aplicaciones como por ejemplo el análisis de datos, la detección de fraude, el análisis de riesgos, campañas de mailing, etc.

En esta asignatura se revisarán todas las etapas del proceso de Descubrimiento de Conocimiento y se enumerarán las técnicas más importantes para cada etapa. Se hará hincapié en las técnicas de limpieza y preprocesado de los datos, frecuentemente olvidadas.

A continuación se abordarán las principales técnicas de Data Mining incluyendo técnicas de Clasificación, Clustering y Reglas de Asociación. Los algoritmos genéticos han tenido un gran auge en los últimos años, surgiendo numerosas aplicaciones de dichos algoritmos en el área de Descubrimiento de Conocimiento, por lo que también serán tratados en profundidad en esta asignatura.

Recientemente se ha producido una tendencia a la incorporación de información de carácter temporal en grandes Bases de Datos para conservar información histórica, para poder analizar la evolución de una variable o conocer los instantes en que un dato es válido. Además, hay dominios donde la información se presenta mayoritariamente en forma de Series Temporales las cuales requieren un tratamiento muy especializado. Por ello, se abordarán las técnicas de descubrimiento de información en series temporales ya que este tipo de datos suponen un desafío a las técnicas tradicionales de Data Mining y requieren el uso de nuevas soluciones.

Objetivos

  • Conocer todas las etapas del proceso de Descubrimiento de Conocimiento, las principales técnicas de cada etapa y saber aplicarlas a un dominio concreto.
  • Saber analizar un dominio (el problema, los datos y los objetivos) para determinar sus características más relevantes y su influencia en las decisiones sobre las técnicas de Data Mining que se deberán aplicar.
  • Conocer las técnicas de Data Mining y saber aplicarlas a problemas concretos.
  • Evaluar el funcionamiento y los resultados de un sistema de Descubrimiento de Conocimiento.

Programa

  1. Introducción
    1. Tipos de datos
    2. Conceptos básicos
  2. Proceso de Descubrimiento de Conocimiento
    1. Etapas del Proceso de Descubrimiento de Conocimiento
    2. Preprocesamiento de los datos
  3. Herramientas de KDD
    1. Visión general
    2. Una herramienta de KDD: WEKA
  4. Técnicas de Data Mining
    1. Clasificación
    2. Clustering
    3. Algoritmos Genéticos
    4. Técnicas en series temporales
  5. Evaluación
    1. Objetivos
    2. Técnicas de evaluación

Bibliografía

  • WEKA. http://www.cs.waikato.ac.nz/ml/weka/
  • J.Han; M. Kamber: "Data Mining: Concepts and Techniques." Ed. Morgan Kauffman 2006
  • M. Kantardzic: "Data Mining: Concepts, Models, Methods, and Algorithms". John Wiley & Sons. 2003.
  • U. Fayyad, G. Piatetsky-Shapiro y P. SmythFrom: "From Data Mining to Knowledge Discovery in databases".1996.

Método de Evaluación

Para la evaluación de la asignatura se tendrá en cuenta, por una parte, la asistencia y participación en clase y, por otra, la práctica de la asignatura.

Para la Evaluación Continua se considerará la asistencia a clase, la participación activa del alumno y los ejercicios evaluables que se planteen en clase.

La práctica de la asignatura se evaluará de acuerdo con las tres fases que se describen a continuación y los pesos correspondientes.

Práctica

La parte práctica consta de un trabajo que se realizará en grupos de 2 personas, pudiendo realizarse excepcionalmente de forma individual. El trabajo se realizará de forma incremental y se presentará en las siguientes entregas:

  • Fase 1: los alumnos elegirán un dominio al que tengan acceso, analizarán sus características y establecerán los objetivos a lograr. Redactarán una memoria indicando las distintas tareas que se llevarían a cabo en cada etapa del proceso de Descubrimiento de Conocimiento de acuerdo a las necesidades específicas del dominio y a los objetivos definidos.
  • Fase 2: mediante el uso de una herramienta software de Descubrimiento de Conocimiento, se aplicarán algoritmos de Data Mining a los datos de cada dominio. Además, el alumno analizará las limitaciones de los algoritmos disponibles en la herramienta y las posibles mejoras.
  • Fase 3: se realizará un plan de evaluación para la valoración de los resultados obtenidos y se ejecutará dicho plan.

Las tres fases son obligatorias y serán evaluadas.

Normas de calificación

La asignatura se evaluará sobre 10 puntos, repartidos en 3 puntos para la evaluación continua y 7 para la práctica. Para superar la asignatura será necesario asistir al menos a un 70% de las clases y obtener una nota no inferior a 5 puntos en la calificación final.

Idioma en que se imparte

Inglés

Competencias Específicas

Código, descripción y nivel de cada una de las competencias específicas de la asignatura
Código Competencia Nivel
CEM2 Adquirir un nivel avanzado de conocimientos que permita el análisis y la sintesis de soluciones a problemas que requieran aproximaciones novedosas para la definición de la infraestructura computacional, el procesamiento y el análisis de datos de diversa naturaleza. S
CEM7 Conocer los fundamentos teóricos y capacitarse para evaluar las diversas técnicas disponibles para la extracción y descubrimiento de conocimiento a partir de grandes volúmenes de datos, y temas de investigación relacionados S

Resultados de Aprendizaje

Código, descripción, competencias asociadas y nivel de adquisición de cada uno de los resultados de aprendizaje de la asignatura
Código Resultado de Aprendizaje Competencias asociadas Nivel de Adquisición
RA-APDI-68 Ser capaz de analizar un dominio para determinar la relevancia de sus características temporales y las tareas de descubrimiento de conocimiento que se podrían plantear CEM2, CEM7 S
RA-APDI-69 Ser capaz de utilizar las técnicas de descubrimiento de conocimiento y su aplicabilidad en cada caso CEM2, CEM7 S
RA-APDI-70 Ser capaz de realizar una evaluación completa del funcionamiento y utilidad de un proyecto de este tipo. CEM2, CEM7 S

Guía de Aprendizaje

Guía de aprendizaje de la asignatura: Descubrimiento de Conocimiento en Bases de Datos