Descubrimiento de Conocimiento en Bases de Datos

Profesor (Coordinador):
Juan Pedro Caraça-Valente
jpvalente@fi.upm.es
Profesor:
Aurora Pérez
aurora@fi.upm.es

Semestre

Primer semestre

Créditos

4 ECTS

Resumen

Las técnicas de Descubrimiento de Conocimiento (o de Data Mining) en grandes volúmenes de información son ampliamente utilizadas hoy en día en diferentes dominios como la medicina, entornos bancarios, sistemas industriales, etc. y tienen una gran variedad de aplicaciones como por ejemplo el análisis de datos, la detección de fraude, el análisis de riesgos, campañas de mailing, etc.

En esta asignatura se revisarán todas las etapas del proceso de Descubrimiento de Conocimiento y se enumerarán las técnicas más importantes para cada etapa. Se hará hincapié en las técnicas de limpieza y preprocesado de los datos, frecuentemente olvidadas.

A continuación se abordarán las principales técnicas de Data Mining incluyendo técnicas de Clasificación, Clustering y Reglas de Asociación. Los algoritmos genéticos han tenido un gran auge en los últimos años, surgiendo numerosas aplicaciones de dichos algoritmos en el área de Descubrimiento de Conocimiento, por lo que también serán tratados en profundidad en esta asignatura.

Recientemente se ha producido una tendencia a la incorporación de información de carácter temporal en grandes Bases de Datos para conservar información histórica, para poder analizar la evolución de una variable o conocer los instantes en que un dato es válido. Además, hay dominios donde la información se presenta mayoritariamente en forma de Series Temporales las cuales requieren un tratamiento muy especializado. Por ello, se abordarán las técnicas de descubrimiento de información en series temporales ya que este tipo de datos suponen un desafío a las técnicas tradicionales de Data Mining y requieren el uso de nuevas soluciones.

Objetivos

  • Conocer todas las etapas del proceso de Descubrimiento de Conocimiento, las principales técnicas de cada etapa y saber aplicarlas a un dominio concreto.
  • Saber analizar un dominio (el problema, los datos y los objetivos) para determinar sus características más relevantes y su influencia en las decisiones sobre las técnicas de Data Mining que se deberán aplicar.
  • Conocer las técnicas de Data Mining y saber aplicarlas a problemas concretos.
  • Evaluar el funcionamiento y los resultados de un sistema de Descubrimiento de Conocimiento.

Programa

  1. Introducción
    1. Tipos de datos, Series temporales
    2. Conceptos básicos
  2. Proceso de Descubrimiento de Conocimiento
    1. Etapas del Proceso de Descubrimiento de Conocimiento
    2. Preprocesamiento de los datos para tipos básicos de datos y series temporales
  3. Herramientas de KDD
    1. Visión general
    2. Una herramienta de KDD: WEKA
  4. Técnicas de Data Mining
    1. Clasificación
    2. Métodos avanzados para el análisis de datos
    3. Clustering
    4. Técnicas en series temporales
  5. Evaluación
    1. Objetivos
    2. Técnicas de evaluación

Bibliografía

Idioma en que se imparte

Inglés

Competencias Específicas

Código, descripción y nivel de cada una de las competencias específicas de la asignatura
Código Competencia Nivel
CEM2 Adquirir un nivel avanzado de conocimientos que permita el análisis y la sintesis de soluciones a problemas que requieran aproximaciones novedosas para la definición de la infraestructura computacional, el procesamiento y el análisis de datos de diversa naturaleza. S
CEM7 Conocer los fundamentos teóricos y capacitarse para evaluar las diversas técnicas disponibles para la extracción y descubrimiento de conocimiento a partir de grandes volúmenes de datos, y temas de investigación relacionados S
CEM8 Aplicar los fundamentos teóricos y matemáticos adecuados al procesamiento y análisis de funciones y datos de diversa naturaleza, y evaluar y diseñar los métodos relacionados para su aplicación en dominios prácticos S

Resultados de Aprendizaje

Código, descripción, competencias asociadas y nivel de adquisición de cada uno de los resultados de aprendizaje de la asignatura
Código Resultado de Aprendizaje Competencias asociadas Nivel de Adquisición
RA-APDI-68 Ser capaz de analizar un dominio para determinar la relevancia de sus características temporales y las tareas de descubrimiento de conocimiento que se podrían plantear CEM2, CEM7, CEM8 S
RA-APDI-69 Ser capaz de utilizar las técnicas de descubrimiento de conocimiento y su aplicabilidad en cada caso CEM2, CEM7, CEM8 S
RA-APDI-70 Ser capaz de realizar una evaluación completa del funcionamiento y utilidad de un proyecto de este tipo. CEM2, CEM7, CEM8 S

Guía de Aprendizaje

Guía de aprendizaje de la asignatura: Descubrimiento de Conocimiento en Bases de Datos