Taller de procesamiento de BigData en Spark + R¶

Manuel Parra (manuelparra@decsai.ugr.es). Soft Computing and Intelligent Information Systems . Distributed Computational Intelligence and Time Series. University of Granada. logos

Visualización interactiva de datos con SparkR

En esta parte final del taller, vamos a trabajar con una herramienta llamada APACHE ZEPPELIN.

Este software aún es experimental.

Apache Zeppelin

Es un NOTEBOOK (similar a Jupyter, del que ya sois expertos), que permite el análisis interactivo de datos. Se pueden realizar documentos dirijidos a datos, interactivos y colaborativos, con SPARKSQL, SCALA, R, python y muchos más.

Es un NOTEBOOK Multiproposito y contiene:

Data Ingestion
Data Discovery
Data Analytics
Data Visualization & Collaboration

Usaremos la versión 0.62 de Apache Zeppelin.

Para inicial el entorno de trabajo con Apache ZEPPELIN accedemos a la Máquina Virtual:

Despues de ejecutar estos comandos se habilita un nuevo puerto en la Máquina Virtual que permite acceder a la siguiente URL:

http://192.168.99.10:9090

Veremos está aplicación en la Nube:

zeppelin

Para comenzar a trabajar, usamos create new note.

Le asignamos un nombre. Una vez dentro de la nueva nota usamos:

    %spark.r

Con esto le indicamos que queremos crear un notebook para trabajar con Spark + R.

En Zeppelin, no es necesario abrir la conexión con Spark como se hacía con SparkR, ya que Zeppelin abre una conexión por defecto que se ha confingurado de antemano. Tampoco es necesario importar la biblioteca sparkR.

Igualmente podemos trabajar con sparklry, pero no tendremos las mejoras que ofrece sparkR para la visualización dinámica de datos.

    df_nyctrips <- read.df("/SparkR/datasets/yellow_tripdata_2016-02_small3.csv", "csv", header = "true", inferSchema = "true")
    createOrReplaceTempView(df_nyctrips,"slqdf_filtered_nyc")

Ahora usaremos una celda de tipo SQL

    %sql

Aquí podemos escribir sentencias SQL para poder tratar datos y visualizarlos.