Análisis de datos
con HPC

SEMESTRE C-2

6 ECTs

Optativa

La cantidad cada vez mayor de información accesible a través de Internet hace que el procesamiento eficiente de grandes cantidades de datos sea cada vez de mayor interés. Esto ha llevado al desarrollo de nuevas técnicas de almacenamiento y procesamiento de ingentes cantidades de información, denominadas técnicas Big Data, que se adaptan de forma natural a los sistemas distribuidos.

CONTENIDOS

El objetivo principal de esta materia es dar a conocer diferentes técnicas de procesamiento de grandes cantidades de información dentro del mundo Big Data, en particular en el ámbito del ecosistema Hadoop, y hacer una comparación con el tipo de procesamiento más tradicional del mundo HPC para, desde una actitud reflexiva, poder seleccionar las herramientas óptimas para resolver un determinado problema.

  • HPC vs Big Data: similitudes y diferencias en el tratamiento de datos
  • Tecnologías Hardware y Software para High Performance Data Engineering
  • Data Engineering en infraestructuras HPC vs entornos Cloud
  • Modelado (Formatos, Compresión, Diseño de Esquemas)
  • Ingesta (Periodicidad, Transformaciones, Herramientas)
  • Almacenamiento (HDFS y BBDD NoSQL, HBase, MongoDB, Cassandra)
  • Procesado (Batch, Real-Time)
  • Orquestación
  • Análisis (SQL, Machine Learning, Graphs, UI)
  • Gobernanza
  • Integración con BI (Visualización)
  • Exploratory Data Analytics
  • Introducción a Machine Learning
  • Aplicaciones en Internet de las Cosas (entornos Smart e Industria 4.0)
  • Aplicaciones en ciencias e ingeniería

BIBLIOGRAFÍA BÁSICA Y COMPLEMENTARIA

Los libros por los que se sigue más directamente algunas partes de la materia son:

  1. T. White, “Hadoop: The Definitive Guide”, 4th Edition, O’Reilly, 2015
  2. Wes McKinney “Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython” 2nd Edition, O’Reilly, 2017

Los siguientes son libros que permiten consultar mas profundamente algunos contenidos:

  1. Alex Holmes, “Hadoop in practice”, 2nd Edition, Manning, 2014
Para una información más detallada de la metodología docente y de la evaluación del máster en computación de altas prestaciones, tanto de modalidad presecial como a distancia, visita las guías docentes de las asignaturas en el siguiente enlace.