Admirable ha organizado un seminario para divulgar este nuevo conocimiento tecnológico en la Escuela Politécnica Superior. Al seminario asistieron 24 participantes: 4 pertenecientes a empresas ASTI y Softeca, 9 profesores de Lenguajes y Sistemas Informáticos y el resto alumnos de últimos cursos del Grado de Ingeniería Informática.
Todo el material que utilizó Mario en la presentación está disponible en uno de sus repositorios de Github.
Los grupos de investigación necesitan ayudas para incorporar este tipo de personal cualificado. Esperamos que esta experiencia le ayude a Mario a iniciarse en sus estudios de doctorado.
El contenido del seminario tuvo la siguiente estructura.
Introducción a Big Data
Una pequeña introducción sobre Big Data, qué es, y por qué se necesitan expertos eningeniería de datos y grandes capacidades de cómputo para la resolución de este tipo de
problemas.
La flexibilidad de la computación en la nube
Frente a tener un clúster propio, una de las mayores virtudes de la computación en la nube es laflexibilidad que ofrece, como por ejemplo el uso de nodos de computación bajo demanda, o un
almacenamiento centralizado. Se muestra cómo crear, configurar, y eliminar clústeres en la nube adaptados a las necesidades de cada problema.
Análisis de datos en la nube
Cuando hablamos de grandes cantidades de datos, del orden de Petabytes, el procesado y lasconsultas a esos conjuntos de datos no son algo trivial. Se ve el funcionamiento de
Dataproc, un servicio de Hadoop y Spark administrado para el procesado de datos, y BigQuery,
un almacén de datos de Google que ofrece amplia escalabilidad.
Hacia un entorno aún más flexible: El modelo sin servidor.
Llegados a este punto habremos visto la flexibilidad que ofrece la nube para configurarnuestros propios servidores. Sin embargo se está avanzando hacia el denominado modelo sin
servidor, o lo que es lo mismo, servicios que no requieren de la configuración previa de
servidores y escalan de forma automática en base a cada problema concreto, como por
ejemplo Cloud Dataflow para el procesado de datos, Pub/Sub como servicio de mensajes y
streaming de datos, o Cloud ML un servicio que permite la creación de modelos de Machine
Learning con TensorFlow.
Comparativa de los servicios en la nube de Google con los que ofrecen Amazon y Microsoft
Veremos como empresas como Amazon o Microsoft ofrecen servicios similares a los vistosanteriormente, propios de Google.