SEMESTRE C-2
6 ECTs
Optativa
La cantidad cada vez mayor de información accesible a través de Internet hace que el procesamiento eficiente de grandes cantidades de datos sea cada vez de mayor interés. Esto ha llevado al desarrollo de nuevas técnicas de almacenamiento y procesamiento de ingentes cantidades de información, denominadas técnicas Big Data, que se adaptan de forma natural a los sistemas distribuidos.
CONTENIDOS
El objetivo principal de esta materia es dar a conocer diferentes técnicas de procesamiento de grandes cantidades de información dentro del mundo Big Data, en particular en el ámbito del ecosistema Hadoop, y hacer una comparación con el tipo de procesamiento más tradicional del mundo HPC para, desde una actitud reflexiva, poder seleccionar las herramientas óptimas para resolver un determinado problema.
- HPC vs Big Data: similitudes y diferencias en el tratamiento de datos
- Tecnologías Hardware y Software para High Performance Data Engineering
- Data Engineering en infraestructuras HPC vs entornos Cloud
- Modelado (Formatos, Compresión, Diseño de Esquemas)
- Ingesta (Periodicidad, Transformaciones, Herramientas)
- Almacenamiento (HDFS y BBDD NoSQL, HBase, MongoDB, Cassandra)
- Procesado (Batch, Real-Time)
- Orquestación
- Análisis (SQL, Machine Learning, Graphs, UI)
- Gobernanza
- Integración con BI (Visualización)
- Exploratory Data Analytics
- Introducción a Machine Learning
- Aplicaciones en Internet de las Cosas (entornos Smart e Industria 4.0)
- Aplicaciones en ciencias e ingeniería
BIBLIOGRAFÍA BÁSICA Y COMPLEMENTARIA
Los libros por los que se sigue más directamente algunas partes de la materia son:
- T. White, “Hadoop: The Definitive Guide”, 4th Edition, O’Reilly, 2015
- Wes McKinney “Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython” 2nd Edition, O’Reilly, 2017
Los siguientes son libros que permiten consultar mas profundamente algunos contenidos:
- Alex Holmes, “Hadoop in practice”, 2nd Edition, Manning, 2014