Matemáticas y Estadística Plan 2019. (Plan a extinguir)

Grado y Doble Grado. Curso 2022/2023.

DATOS MASIVOS: BIG-DATA - 805377

Curso Académico 2022-23

Datos Generales

SINOPSIS

COMPETENCIAS

Generales
Utilizar los conocimientos matemáticos para modelar y resolver problemas
complejos mediante algoritmos.
Valorar diferentes soluciones alternativas y elegir de acuerdo a las situaciones
específicas entre las herramientas y las técnicas adecuadas para llevar a cabo
la implementación de dichas soluciones.
Saber abstraer en un problema complejo las propiedades y características esen-
ciales reconociendo su rango de aplicabilidad y limitaciones.
Transversales
Ser capaz de mostrar creatividad, iniciativa y espíritu emprendedor
para afrontar los retos de su actividad y saber valorar las soluciones a dichos
retos en el contexto industrial, económico, administrativo, medio ambiental y
social.
Tener la capacidad de reunir e interpretar datos relevantes para emitir juicios
que incluyan una reflexión profunda sobre temas y problemas a resolver.
Demostrar razonamiento crítico y gestionar información científica y técnica de
calidad, bibliografía, bases de datos especializadas y recursos accesibles a través
de Internet.
Trabajar con la linea de comandos y manejo de ssh.
Específicas
Conocer los problemas que se presentan en el manejo de grandes cantidades de datos. (CG1, CG4, CE1)
Conocer las características de los sistemas distribuidos de ficheros. (CG4, CE3)
Conocer técnicas y software de programación paralela para sistemas distribuidos de ficheros. (CG4 CE4)

ACTIVIDADES DOCENTES

Clases teóricas
En las que el profesor presenta los conceptos y técnicas relevantes
de los contenidos y muestra las referencias bibliográficas o enlaces web a seguir
para profundizar en dichos temas.
Clases prácticas
En las que en un trabajo guiado por el profesor el alumnado
diseña y busca soluciones a ejercicios propuestos.
Laboratorios
En las que los alumnos implementan y depuran los
programas que resuelven los problemas estudiados en las clases prácticas.
Presentaciones
En las que los alumnos, de forma individual o por grupos, a petición
del profesor, preparan una exposición ante sus compañeros de una solución (bien
sea diseño, implementación o ambas) a alguno de los problemas propuestos.

Presenciales

6

Semestre

8

Breve descriptor:

En esta asignatura se estudiará la forma de trabajar con datos de gran tamaño (Big Data) y sus problemas asociados:
- Sistemas de ficheros distribuidos, replicados y tolerantes a fallos.
- Programación paralea con el paradigma map-reduce
- Bases de datos no relacionales.

Requisitos

Es adecuado para seguir el curso con fluidez contar con los conocimientos
de programación que habitualmente se consiguen con un primer curso en esta materia:
variables y tipos de datos, estructuras de control, programación estructurada. . .
También es recomendable cursar las asignaturas de programación declarativa, estructuras de datos y bases de datos.

Objetivos

Entender la necesidad del uso de datos distribuidos, replicados y tolerantes a fallos.
Elaborar soluciones a problemas usando datos distribuidos


Contenido

Introducción al big data: problemas y retos.
Sistemas distribuidos de ficheros. Arquitectura clúster, tolerancia a fallos, replicación. Manejo de sistemas distribuidos de ficheros.
Programación paralela para sistemas distribuidos de ficheros. MapReduce. Spark.
Manejo de bases de datos no relacionales

Evaluación

Convocatoria ordinaria:
Participación: 30%. La participación en los foros, la realización de los trabajos voluntarios.
Evaluación continua: 70%. Es necesario tener aptos todos los trabajos obligatorios

Convocatoria extraordinaria:
La participación: 30% (la participación durante el curso)
Examen teórico-práctico: 70%

Bibliografía

Enlaces Web:
- Python, http://docs.python.org/3
- Apache hadoop
- Apache Spark: https://spark.apache.org/docs/latest/
- MongoDB: https://docs.mongodb.org/manual

Libros:
- Garry Turkington. Hadoop Beginner's Guide. Packt Publishing, Limited. 2013
- Hien Luu. Beginning Apache Spark 2 : with resilient distributed datasets, Spark SQL, structured streaming and Spark Machine Learning library Beginning Apache Spark 2 : with resilient distributed datasets, Spark SQL, structured streaming and Spark Machine Learning library. Springer Professional and Applied Computing eBooks 2018
- Afshin Mehrabani. MongoDB high availability. Packt Publishing, 2014.

Otra información relevante

No se usará el campus virtual de la UCM. Es su lugar usaremos este
https://wild.ucm.es/moodle

Estructura

MódulosMaterias
No existen datos de módulos o materias para esta asignatura.

Grupos

Clases teóricas
GrupoPeriodosHorariosAulaProfesor
Grupo único23/01/2023 - 05/05/2023JUEVES 16:00 - 17:00B08RAQUEL RAMOS LOPEZ
JUEVES 17:00 - 18:00B08RAQUEL RAMOS LOPEZ


Clases en aula de informática
GrupoPeriodosHorariosAulaProfesor
Grupo único23/01/2023 - 05/05/2023VIERNES 16:00 - 17:00INF 4RAQUEL RAMOS LOPEZ
VIERNES 17:00 - 18:00INF 4RAQUEL RAMOS LOPEZ