Conceptos, Prácticas y Retos en Data Mining

Profesor (Coordinador):
Francisco Javier Segovia
fsegovia@fi.upm.es
Profesor:
Ernestina Menasalvas
emenasalvas@fi.upm.es

Semestre

Segundo semestre

Créditos

4 ECTS

Resumen

En esta asignatura, se detallarán las técnicas, los procesos de desarrollo, los modelos y los retos para desarrollo de proyectos de minería de datos. Un impresionante 60% de los proyectos de inteligencia empresarial son abandonados o fracasan debido a una planificación inadecuada, tareas inacabadas, el incumplimiento de los plazos, una gestión defectuosa de los proyectos, la no entrega de los requisitos empresariales, o la entrega de productos de bajo calidad.

Todo proyecto de inteligencia empresarial implica el desarrollo de un proyecto de minería de datos concebido para descubrir la inteligencia empresarial. Se han propuesto muchos modelos de proceso para el desarrollo de proyectos de minería de datos. Es evidente que, a pesar de todas las investigaciones y proyectos que se han llevado a cabo, todavía hoy el modo en el que se desarrollan los proyectos de minería de datos se acerca más a un arte que a un proceso ingenieril. Los expertos en minería de datos traducen intuitivamente los requisitos empresariales a unos objetivos y técnicas para la minería de datos, lo que implica que los proyectos dependen completamente de sus desarrolladores. Si se marcha el experto en minería de datos, el proyecto fracasará porque no habrá indicado o documentado los pasos a seguir.

La primera pregunta que se plantea es, ¿cuál es la metodología que se debe seguir para transformar los objetivos empresariales en objetivos para la minería de datos? Desgraciadamente, no existe hasta la fecha esta metodología. Para responder a esta pregunta, hay que abordar cuestiones como: ¿cómo se especifican los objetivos empresariales? ¿Qué es un objetivo en el campo de la minería de datos? ¿Qué tipos de problemas puede resolver la minería de datos? ¿Qué tienen en común todos los problemas? ¿Cuáles son los requisitos para resolver con éxito un problema dado? En esta asignatura, se abordará la multitud de aproximaciones que pretenden resolver estos problemas. Convertir el desarrollo de proyectos de inteligencia empresarial en una verdadera disciplina ingenieril implica la aplicación de metodologías que se ajustan a este nuevo tipo de proyectos. Las prácticas tradicionales de desarrollo son inadecuadas e inapropiadas ya que, en todas las organizaciones, la inteligencia empresarial es un área en evolución, sujeto a cambios y mejoras continuos basados en la información recibida de la comunidad empresarial.

Objetivos

  • Inculcar a los alumnos la importancia de los proyectos de Data Mining y las diferencias existentes con otros tipos de proyectos desarrollados en las organizaciones.
  • Analizar los retos existentes en la gestión de proyectos de Data Mining.

Programa

  1. Introducción a la ingeniería de datos
  2. La herramienta: IBM SPSS Modeler
  3. El proceso CRISP-DM
  4. Regresión lineal
  5. Regresión logística
  6. Análisis RFM
  7. Árboles de decisión
  8. Redes neuronales
  9. Agrupamiento
  10. Vecino más cercano
  11. Reglas de asociación

Bibliografía

  • D. Hand: Principles of Data Mining (Adaptive Computation and Machine Learning), MIT Press, 2001
  • Jiawei Han, Micheline Kamber: Data Mining: Concepts and Techniques, Morgan Kaufmann, 2006
  • Michael J. A. Berry, Gordon Linoff: Data Mining Techniques: Marketing, Sales and Customer Support, John Wiley & Sons, 1997
  • Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, Pearson Addison Wesley, 2005
  • Ian Witten, Eibe Frank, Mark Hall: Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann, 2011

Prerrequisitos

  • Conocimiento y aplicación de las características, funcionalidades y estructura de las bases de datos, que permitan su adecuado uso, y el diseño y el análisis e implementación de aplicaciones basadas en ellos.
  • Conocimiento y aplicación de los principios fundamentales y técnicas básicas de inteligencia artificial y su aplicación práctica.
  • Aptitud para aplicar los conocimientos sobre estadística y optimización.

Método de Evaluación

La evaluación se basa en el proyecto final y los trabajos.

Los trabajos y proyectos se realizarán individualmente o por grupos, dependiendo del grupo.

Para aprobar el curso es obligatorio presentar todas las tareas y el proyecto final, en cualquier modalidad de evaluación.

La participación en clase supondrá un aumento del 10% en la nota final.

Idioma en que se imparte

Inglés

Competencias Específicas

Código, descripción y nivel de cada una de las competencias específicas de la asignatura
Código Competencia Nivel
CEM7 Evaluar y aplicar las diversas teorías matemáticas y estadísticas, y los procesos, métodos y técnicas disponibles para la extracción y descubrimiento de conocimiento a partir de grandes volúmenes de datos. P
CEM8 Aplicar los fundamentos teóricos y matemáticos adecuados al procesamiento y análisis de funciones y datos de diversa naturaleza, y evaluar y diseñar los métodos relacionados para su aplicación en dominios prácticos P

Resultados de Aprendizaje

Código, descripción, competencias asociadas y nivel de adquisición de cada uno de los resultados de aprendizaje de la asignatura
Código Resultado de Aprendizaje Competencias asociadas Nivel de Adquisición
RA-APDI-19 Ser capaz de realizar data mining a través de un proceso, demostrando su competencia en un estándar incluyendo las fases de conocimiento del negocio, conocimiento de los datos, análisis exploratorio de los datos, modelado, evaluación y explotación CEM2, CEM7 P
RA-APDI-20 Manejar aplicaciones software para realizar tareas de data mining CEM2, CEM7 P
RA-APDI-21 Comprender los fundamentos y aplicar un amplio y variado repertorio de algoritmos de clustering, estimación, predicción y clasificación. CEM2, CEM7 P
RA-APDI-22 Conocer ejemplos de aplicaciones reales y tendencias y líneas de investigación CEM2, CEM7 P

Guía de Aprendizaje

Guía de aprendizaje: Conceptos, Prácticas y Retos en Data Mining