Planificación de Minería de Datos en Bioinformática (2020)

 IMPRIMIR PLANIFICACIÓN

Información básica

Carrera
Ingeniería en Informática
Departamento
Formación Complementaria
Sitio Web
No especificada
Plan de Estudios
Plan 2006
Carácter Período
Cuatrimestral 1° Cuatrimestre
Docente Responsable
Georgina Silvia Stegmayer

Equipo docente

Nombre y Apellido
Milone, Diego Humberto
Stegmayer, Georgina Silvia

Carga horaria

Carga horaria total 60 hs
Teoría 20 hs
Resolución de ejercicios 8 hs
Proyecto y diseño 6 hs
Evaluaciones 8 hs
Formación experimental 6 hs
Resolución de problemas de ingeniería 8 hs
Otras actividades 4 hs

Contenidos mínimos

Dado el actual crecimiento de la cantidad de datos a analizar (la denominada “big-data”) en diversas áreas de aplicación, en particular la biología, la informática ha pasado a jugar un rol fundamental para el análisis, interpretación e inferencia de conocimiento a patir de esos datos. Esto se suma al auge actual de la disciplina bioinformática, en la cual se aplican técnicas de minería de datos para el análisis de datos de origen biológico (tales como expresión de genes, perfiles metabólicos, proteínas, entre otros). Existen muchos conceptos, metodologías y técnicas de la minería de datos que pueden potenciar y enriquecer las posibilidades que posee el alumno pronto a recibirse, sobre todo para enfrentar problemas en dominios que difieren de aquellos que tradicionalmente se desarrollan durante el dictado
de su carrera de grado. Se propone introducir al alumno en conceptos básicos acerca de los tipos de datos biológicos que se generan hoy en día y pueden ser objeto de estudio. Mostrarle los algoritmos y modelos básicos de análisis, agrupamiento y clasificación de esos datos para búsqueda de conocimiento o comportamientos ocultos en ellos. Se presentarán además las técnicas estadísticas que pueden aplicarse para verificar y validar los resultados obtenidos con los métodos del área. Se organizará el dictado de la asignatura bajo una perspectiva ingenieril: desarrollar los contenidos seleccionados con una fuerte componente de trabajo de los alumnos en implementación computacional de los algoritmos vistos en clase. Se presentarán los temas que se consideran necesarios para que el alumno pueda adquirir los conceptos básicos que le permitan comprender la esencia del área y formar criterios para la aplicación de estas técnicas. Se pretende que las mismas le brinden al futuro ingeniero formación y herramientas que le ayuden a desarrollar actividades específicas de su profesión.

Objetivos

Objetivo general:
El objetivo general de la asignatura es introducir al alumno en el estudio de la minería de datos en bioinformática. Para ello se estudiarán e implementarán los algoritmos básicos de minería de datos, tales como clasificadores (máquinas de vector soporte, redes neuronales) y clustering o agrupamiento (k-medias, agrupamiento jerárquico y mapas auto-organizativos). En cuanto al tipo de datos con el cual se trabaja en el área, se introducirán brevemente los conceptos biológicos necesarios para entender sus
características, complejidad y objetivo de estudio desde la perspectiva del campo de aplicación.


Objetivos específicos:
Que el alumno:
· Conozca los diferentes tipos de datos biológicos existentes y sus características.
· Conozca cuáles son los tipos de problemáticas estudiadas en el área de minería de datos en bioinformática.
· Domine y sepa aplicar las técnicas básicas de agrupamiento y clasificación para resolver esos problemas con datos del dominio biológico.
· Sea capaz de resolver problemas con iniciativa autonomía y creatividad.

Conocimientos específicos previos para cursar la asignatura

Programación y cálculo básico.

La optativa está pensada para alumnos de 4to y 5to año de Ing. en Informática.

Metodología de enseñanza

Las 4 horas semanales se distribuyen de la siguiente manera en:
- 2 horas de clases teóricas: presentación, exposición dialogada y ejemplificación de los temas, con apoyo de material bibliográfico y recursos didácticos. Se presentan ejemplos y problemas mediante el empleo de transparencias y/o desarrollos en la pizarra.

- 2 horas de clases prácticas: para afianzar el dominio de los tópicos discutidos, donde se presentan actividades de fijación, revisión e implementación de los conceptos vistos en las clases teóricas. Las prácticas serán orientativas para permitir el aprendizaje activo del alumno, se promoverá la discusión de soluciones y análisis de casos propuestos por los estudiantes.


Se resuelven problemas presentados de las guías de ejercicios prácticos para cada unidad del programa analítico. Las guías que se presentan son las siguientes:
Guía de datos biológicos (Unidad 2): enunciados con distintas situaciones problemáticas en las cuales se deben pre-procesar distintos tipos de datos biológicos, extraer características de secuencias, calcular distancias semánticas entre anotaciones de genes, entre otros.
Guía de clustering y clasificación (Unidad 3): implementación de algoritmos de clasificación y clustering con bases de datos libres, artificiales y biológicas reales.
Guía de análisis de resultados (Unidad 4): aplicación de medidas de calidad en clustering (cohesión, separación, etc). Análisis estadístico de los resultados (tests de hipótesis, análisis de la varianza)
Guía de inferencia de redes (Unidad 5): búsqueda de relaciones entre componentes de un cluster mediante algoritmos de búsqueda.


Los alumnos deberán desarrollar un Proyecto Integrador (PI) grupal a lo largo del
cuatrimestre, aplicando e implementando las técnicas vistas en clase. En el PI se presenta un problema real de bioinformática a resolver incluyendo el diseño de soluciones y la resolución de problemas abiertos.
Por ejemplo, a partir de una base de datos biológica hay que procesarla, encontrar relaciones entre sus datos, validarlos y reconstruir la vía metabólica que los vincula. Cada trabajo práctico se presenta con una exposición oral en donde el alumno debe demostrar cómo resolvió el problema planteado por los profesores.

Programa Analítico

UNIDAD 1 – INTRODUCCION.

Qué es la minería de datos. Qué es la Bioinformática. Antecedentes y
contexto histórico. Desafíos actuales en la minería de datos biológicos y “Big-data”. Proceso de minería de datos biológicos.

UNIDAD 2 - DATOS BIOLOGICOS.

Tipos y características particulares.. Bases de datos biológicas.
Secuencias de ADN: tipos, plegado, alineación de secuencias y extracción de características. Genes, Gene Ontology (GO) y similaridad. Cómo medir distancias entre datos biológicos (distancia euclídea, correlación, similaridad semántica). Redes metabólicas y de regulación de genes.

UNIDAD 3 - MINERIA DE DATOS.

Clustering. Técnicas y modelos de clustering. Agrupamiento Jerárquico. K-medias y Partición en torno a Medoides (PAM). Mapas auto-organizativos (SOM). Ensamble de clusters. Clasificación. Redes neuronales. Máquinas de vector soporte (SVM).

UNIDAD 4 – VALIDACION DE RESULTADOS.

Análisis estadístico de los resultados. Análisis de la varianza. Medidas de calidad en clustering. Medidas de validación externas e internas. Medidas de estabilidad en clustering.

UNIDAD 5 – GENERACION DE NUEVO CONOCIMIENTO.

Algoritmos de búsqueda de redes de relaciones. Búsqueda en profundidad y en amplitud, algoritmos evolutivos. Inferencia de redes metabólicas. Reconstrucción de redes de regulación entre genes a partir de mediciones temporales.

Bibliografía

Bibliografía básica

Russell, S., Norvig, P.
Articial Intelligence: A Modern Approach
Prentice Hall

R. Xu and D. C. Wunsch.
Clustering
IEEE

G. Fogel and D. Corne,
Computational Intelligence in Bioinformatics
Morgan Kaufmann,

I. Witten & E. Franck
Data Mining
Morgan-Kauffmann

Stegmayer, G., Gerard, M., Milone, D.
Data mining over biological datasets: an integrated approach based on computational intelligence. IEEE Computational Intelligence Magazine, Special Issue on Computational Intelligence in Bioinformatics
IEEE

E. Keedwell and A. Narayanan,
Intelligent Bioinformatics: The Application of Artificial Intelligence Techniques to Bioinformatics Problems.
Wiley

Apuntes

Unidad Título Apunte Descripción Descargar
UNIDAD 1 – INTRODUCCION. Presentacion materia Descargar
UNIDAD 2 - DATOS BIOLOGICOS. Distancia entre genes Descargar
UNIDAD 3 - MINERIA DE DATOS. Clasificacion Descargar
UNIDAD 3 - MINERIA DE DATOS. Clustering Descargar
UNIDAD 4 – VALIDACION DE RESULTADOS. Validacion Descargar
UNIDAD 5 – GENERACION DE NUEVO CONOCIMIENTO. Algoritmos evolutivos Descargar
UNIDAD 5 – GENERACION DE NUEVO CONOCIMIENTO. Busqueda Descargar

Cronograma de actividades

Unidad 1. Introducción. Modalidad de cursado. Condiciones de regularidad. Semana 1 Tipo: T Duración: 4 hs
Docente/s responsable/s: Georgina Silvia Stegmayer
Descripción:
Observaciones:
Unidad 2. Explicación de los distintos tipos de datos biológicos. KEGG. Practica con genes y metabolitos su pre-procesamiento (normalización). Semana 2 Tipo: T Duración: 2 hs
Docente/s responsable/s: Georgina Silvia Stegmayer, Georgina Silvia Stegmayer
Descripción:
Observaciones:
Unidad 2. Explicación de los distintos tipos de datos biológicos. KEGG. Practica con genes y metabolitos su pre-procesamiento (normalización). Semana 2 Tipo: EP Duración: 2 hs
Docente/s responsable/s: Georgina Silvia Stegmayer, Georgina Silvia Stegmayer
Descripción:
Observaciones:
Unidad 2. Genes y GO. Anotaciones semánticas. Distancias. Práctica de cálculo de distinto tipo de matrices de distancias entre datos biológicos. Semana 3 Tipo: EP Duración: 2 hs
Docente/s responsable/s: Georgina Silvia Stegmayer, Georgina Silvia Stegmayer
Descripción:
Observaciones:
Unidad 2. Genes y GO. Anotaciones semánticas. Distancias. Práctica de cálculo de distinto tipo de matrices de distancias entre datos biológicos. Semana 3 Tipo: T Duración: 2 hs
Docente/s responsable/s: Georgina Silvia Stegmayer, Georgina Silvia Stegmayer
Descripción:
Observaciones:
Unidad 3. Clustering. Ensamble de clustering. Implementación y comparación de resultados en diferentes tipos de datos artificiales. Semana 4 Tipo: T Duración: 2 hs
Docente/s responsable/s: Georgina Silvia Stegmayer, Georgina Silvia Stegmayer
Descripción:
Observaciones:
Unidad 3. Clustering. Ensamble de clustering. Implementación y comparación de resultados en diferentes tipos de datos artificiales. Semana 4 Tipo: EP Duración: 2 hs
Docente/s responsable/s: Georgina Silvia Stegmayer, Georgina Silvia Stegmayer
Descripción:
Observaciones:
Unidad 3. Clasificación. Perceptrón multicapa y máquinas de vector soporte. A partir de secuencias: plegado, extracción de características y clasificación de miRNAs. Semana 5 Tipo: T Duración: 2 hs
Docente/s responsable/s: Georgina Silvia Stegmayer, Georgina Silvia Stegmayer
Descripción:
Observaciones:
Unidad 3. Clasificación. Perceptrón multicapa y máquinas de vector soporte. A partir de secuencias: plegado, extracción de características y clasificación de miRNAs. Semana 5 Tipo: EP Duración: 2 hs
Docente/s responsable/s: Georgina Silvia Stegmayer, Georgina Silvia Stegmayer
Descripción:
Observaciones:
Defensa Proyecto Integrador 1 Semana 6 Tipo: P/D Duración: 2 hs
Docente/s responsable/s: Georgina Silvia Stegmayer, Georgina Silvia Stegmayer
Descripción:
Observaciones:
Defensa PI 1 Semana 6 Tipo: PI Duración: 2 hs
Docente/s responsable/s: Georgina Silvia Stegmayer, Georgina Silvia Stegmayer
Descripción:
Observaciones:
Parcial 1: Unidades 1, 2 y 3 Semana 7 Tipo: E Duración: 4 hs
Docente/s responsable/s: Georgina Silvia Stegmayer, Georgina Silvia Stegmayer
Descripción:
Observaciones:
Consultas Semana 7 Tipo: C Duración: 2 hs
Docente/s responsable/s: Georgina Silvia Stegmayer, Georgina Silvia Stegmayer
Descripción:
Observaciones:
Unidad 4. Validación de resultados. Estabilidad. Medidas. Implementación y práctica de las medidas sobre bases de datos artificias y reales disponibles. Semana 8 Tipo: T Duración: 2 hs
Docente/s responsable/s: Georgina Silvia Stegmayer, Georgina Silvia Stegmayer
Descripción:
Observaciones:
Unidad 4. Validación de resultados. Estabilidad. Medidas. Implementación y práctica de las medidas sobre bases de datos artificias y reales disponibles. Semana 8 Tipo: PL Duración: 2 hs
Docente/s responsable/s: Georgina Silvia Stegmayer, Georgina Silvia Stegmayer
Descripción:
Observaciones:
Unidad 4. Análisis estadístico de resultados. Implementación y práctica sobre bases de datos artificias y reales disponibles. Semana 9 Tipo: T Duración: 2 hs
Docente/s responsable/s: Georgina Silvia Stegmayer, Georgina Silvia Stegmayer
Descripción:
Observaciones:
Unidad 4. Análisis estadístico de resultados. Implementación y práctica sobre bases de datos artificias y reales disponibles. Semana 9 Tipo: PL Duración: 2 hs
Docente/s responsable/s: Georgina Silvia Stegmayer, Georgina Silvia Stegmayer
Descripción:
Observaciones:
Unidad 5. Reconstrucción de redes de regulación entre genes. Búsqueda de redes metabólicas con algoritmos evolutivos. Semana 10 Tipo: T Duración: 2 hs
Docente/s responsable/s: Georgina Silvia Stegmayer, Georgina Silvia Stegmayer
Descripción:
Observaciones:
Unidad 5. Reconstrucción de redes de regulación entre genes. Búsqueda de redes metabólicas con algoritmos evolutivos. Semana 10 Tipo: PL Duración: 2 hs
Docente/s responsable/s: Georgina Silvia Stegmayer, Georgina Silvia Stegmayer
Descripción:
Observaciones:
Unidad 5. Algoritmos clásicos de búsqueda. Búsqueda en profundidad, en amplitud. Búsqueda óptima y completa. Práctica de búsqueda de relaciones entre un conjunto de metabolitos y genes. Semana 11 Tipo: T Duración: 2 hs
Docente/s responsable/s: Georgina Silvia Stegmayer, Georgina Silvia Stegmayer
Descripción:
Observaciones:
Unidad 5. Algoritmos clásicos de búsqueda. Búsqueda en profundidad, en amplitud. Búsqueda óptima y completa. Práctica de búsqueda de relaciones entre un conjunto de metabolitos y genes. Semana 11 Tipo: P/D Duración: 2 hs
Docente/s responsable/s: Georgina Silvia Stegmayer, Georgina Silvia Stegmayer
Descripción:
Observaciones:
Defensa Proyecto Integrador 2 Semana 12 Tipo: PI Duración: 2 hs
Docente/s responsable/s: Georgina Silvia Stegmayer, Georgina Silvia Stegmayer
Descripción:
Observaciones:
Consulta Semana 12 Tipo: C Duración: 2 hs
Docente/s responsable/s: Georgina Silvia Stegmayer, Georgina Silvia Stegmayer
Descripción:
Observaciones:
Defensa Proyecto Integrador 2 Semana 12 Tipo: P/D Duración: 2 hs
Docente/s responsable/s: Georgina Silvia Stegmayer, Georgina Silvia Stegmayer
Descripción:
Observaciones:
Parcial 1: unidades 4 y 5. Semana 13 Tipo: E Duración: 4 hs
Docente/s responsable/s: Georgina Silvia Stegmayer, Georgina Silvia Stegmayer
Descripción:
Observaciones:
Coloquio Final Integrador Semana 15 Tipo: PI Duración: 4 hs
Docente/s responsable/s: Georgina Silvia Stegmayer, Georgina Silvia Stegmayer
Descripción:
Observaciones:

Guías de actividades

Actividad Título Descripción Descargar
Unidad 2. Genes y GO. Anotaciones semánticas. Distancias. Práctica de cálculo de distinto tipo de matrices de distancias entre datos biológicos. Distancia genes. Descargar
Unidad 3. Clustering. Ensamble de clustering. Implementación y comparación de resultados en diferentes tipos de datos artificiales. Clustering practica Descargar

Requerimientos para regularizar

Alumno regular: El alumno queda regular cuando cumple con:
- aprobación de 2 (DOS) exámenes parciales, debiendo aprobarse cada uno de ellos con un mínimo del 40%. Se podrá acceder a un recuperatorio si alguno de los parciales resultara desaprobado.
- aprobación de un proyecto integrador con presentación y defensa oral.
Los alumnos que no cumplan con los requisitos quedarán en condición de libres.

Requerimientos para promover

Promoción directa sin examen final: Para alcanzar la promoción de la asignatura los alumnos deberán cumplir las siguientes condiciones y actividades:
- aprobación de 2 (DOS) exámenes parciales de teoría y práctica, debiendo obtener una  calificación no inferior al 60% en cada uno de ellos. Para cada examen se podrá acceder a un recuperatorio.
- aprobación de un proyecto integrador y un un coloquio final integrador (CFI) que consistirá en una evaluación global de los temas abordados en la asignatura, mediante un diálogo con los docentes. El alumno que no apruebe esta instancia quedará en condición de regular.
A efectos de la nota final, se hará un promedio ponderado de las notas obtenidas en los parciales, PI y CFI.

Examen final

Alumnos regulares

Escrito individual

Alumnos libres

Dos TP practicos, una actividad practica integradora y un examen integrador escrito individual.

Evaluaciones

Fecha Tipo Modalidad Descripción
29-04-2020 Trabajo Práctico Oral Defensa Proyecto Integrador parte I.
06-05-2020 Parcial Escrita Parcial 1: unidades 1, 2 y 3.
03-06-2020 Trabajo Práctico Oral Defensa Proyecto Integrador parte 2.
10-06-2020 Parcial Escrita Parcial 2: unidades 4 y 5.
17-06-2020 Coloquio Oral Coloquio final integrador.
17-06-2020 Recuperatorio Escrita Recuperatorios.