Taller de Ingeniería de datos en la nube con Google Cloud Platform

La formación en nuevas tecnologías es un proceso continuo que necesita de personal cualificado, enérgico y cargado de motivación. Mario Juez Gil, es un recién titulado del Master de Ingeniería Informática que cumple estos requisitos. Con la ayuda del Grupo de Investigación de la UBU Admirable, se ha formado en los servicios de computación en la nube de Google.

Admirable ha organizado un seminario para divulgar este nuevo conocimiento tecnológico en la Escuela Politécnica Superior. Al seminario asistieron 24 participantes: 4 pertenecientes a empresas ASTI y Softeca, 9 profesores de Lenguajes y Sistemas Informáticos y el resto alumnos de últimos cursos del Grado de Ingeniería Informática.

Todo el material que utilizó Mario en la presentación está disponible en uno de sus repositorios de Github.

Los grupos de investigación necesitan ayudas para incorporar este tipo de personal cualificado. Esperamos que esta experiencia le ayude a Mario a iniciarse en sus estudios de doctorado.

El contenido del seminario tuvo la siguiente estructura.

Introducción a Big Data

Una pequeña introducción sobre Big Data, qué es, y por qué se necesitan expertos en
ingeniería de datos y grandes capacidades de cómputo para la resolución de este tipo de
problemas.

La flexibilidad de la computación en la nube

Frente a tener un clúster propio, una de las mayores virtudes de la computación en la nube es la
flexibilidad que ofrece, como por ejemplo el uso de nodos de computación bajo demanda, o un
almacenamiento centralizado. Se muestra cómo crear, configurar, y eliminar clústeres en la nube adaptados a las necesidades de cada problema.

Análisis de datos en la nube

Cuando hablamos de grandes cantidades de datos, del orden de Petabytes, el procesado y las
consultas a esos conjuntos de datos no son algo trivial. Se ve el funcionamiento de
Dataproc, un servicio de Hadoop y Spark administrado para el procesado de datos, y BigQuery,
un almacén de datos de Google que ofrece amplia escalabilidad.

Hacia un entorno aún más flexible: El modelo sin servidor.

Llegados a este punto habremos visto la flexibilidad que ofrece la nube para configurar
nuestros propios servidores. Sin embargo se está avanzando hacia el denominado modelo sin
servidor, o lo que es lo mismo, servicios que no requieren de la configuración previa de
servidores y escalan de forma automática en base a cada problema concreto, como por
ejemplo Cloud Dataflow para el procesado de datos, Pub/Sub como servicio de mensajes y
streaming de datos, o Cloud ML un servicio que permite la creación de modelos de Machine
Learning con TensorFlow.

Comparativa de los servicios en la nube de Google con los que ofrecen Amazon y Microsoft

Veremos como empresas como Amazon o Microsoft ofrecen servicios similares a los vistos
anteriormente, propios de Google.

DIGIT - Grupo de innovación docente de la Universidad de Burgos

martes, 12 de diciembre de 2017