Taller de procesamiento de BigData en Spark + R

Manuel Parra (manuelparra@decsai.ugr.es). Soft Computing and Intelligent Information Systems . Distributed Computational Intelligence and Time Series. University of Granada. logos

Entorno de trabajo del taller

Para este taller en la Universidad de Navarra, se ha instalado en cada PC individual una Máquina Virtual con VirtualBox, desde la cual se podrá trabajar con todas las herramientas para el procesamiento de datos masivos.

De modo que sólo tendrás que iniciar la Máquina Virtual y seguir estos pasos para habilitar todos los servicios:

  • Iniciar la Máquina Virtual con el Taller (Spark_R_UPN)-
  • Introducir los datos de acceso:
    • Usuario (login): root
    • Clave (password): ``sparkR```
  • Escribir el siguiente comando y pulsar intro:
    • iniciar_taller
  • Al ejecutar el comando anterior, solicitará la clave de nuevo, por lo que escribimos: sparkR
  • Esperamos a que termine de ejecutarse el comando y comprobamos que podemos acceder a las siguientes URLs:

¿Qué contiene la máquina virtual?

  • Hadoop
  • Spark versión 2.01.
  • Spark + Python versión 2.7
  • Spark + R versión 3.3.1
  • Spark + Scala versión 2.16
  • Jupyter
  • RStudio
  • Zeppelin 0.62

Si ya has terminado el taller y quieres seguir trabajando desde casa, revisa la documentación para instalar todo el entorno de trabajo en tu PC de casa.

Spark All-in-one

La máquina virtual para el taller completo contiene todas las herramientas necesitas para el desarrollo del trabajo, por lo tanto es la opción más sencilla para poder empezar manos a la obra con el contenido, en el caso de que no estés ya en el taller.

Requisitos necesarios para trabajar con la Máquina Virtual:

  • Tener instalado VIRTUALBOX, disponible en: https://www.virtualbox.org/wiki/Downloads
  • Disponer de al menos 2GB de RAM para la Máquina Virtual
  • El PC debe ser de 64bits y contar con al menos 4GB de RAM (2GB para la MVirtual y otros 2GB para el PC)
  • Compatible con Windows, Mac OSX y Linux

Descarga la máquina virtual del taller: https://drive.google.com/file/d/0ByPBMv-S_GMEakRCVVRTejZKVm8/view?usp=sharing (aprox: 4 GB)

Haz doble clic el fichero Spark_UPN.ova y se instalará la nueva Máquina Virtual en tu sistema.

Antes de iniciar la Máquina Virtual desde VirtualBox hay que configurar lo siguientes parámetros dentro de VirtualBox:

  • Ir al Menu de Preferencias del VirtualBox -> Network (RED) -> Host-only Network (Adaptador sólo Host)
  • Pulsar en añadir: logos

Utiliza la IP: 192.168.99.10 y Mascara de RED 255.255.255.0

Una vez configurados los parámetros, iniciar la nueva Máquina Virtual (pulsando sobre su icono y "comenzar"); al arrancar nos pedirá el LOGIN y USUARIO, para ello hay que usar:

usuario: root
clave: sparkR

Hecho esto veremos la siguiente pantalla de información de los servicios que disponemos:

logos

Para iniciar el entorno de trabajo con la Máquina Virtual, desde el shell, hay que escribir:

iniciar_taller

pulsa intro y espera, te pedirá de nuevo la clave, usa:

sparkR

Al hacer esto tenemos todos los servicios de Spark funcionado y listos para trabajar.

En entorno de trabajo pone a tu disposición dos entornos de programación para R y Python:

In [ ]: