Manuel Parra (manuelparra@decsai.ugr.es). Soft Computing and Intelligent Information Systems
. Distributed Computational Intelligence and Time Series. University of Granada.
Todas ellas operan sobre una única máquina, no conectadas o conectadas, con recursos limitados, etc.
Una máquina sola no puede procesar o incluso almacenar todos los datos
Una de las soluciones iniciales: MAP REDUCE (https://www.ibm.com/analytics/us/en/technology/hadoop/mapreduce/)
Este paradigma de programación permite una escalabilidad masiva a través de cientos o miles de servidores en un clúster con Hadoop. El concepto de MapReduce es bastante simple de entender.
Limitaciones de Hadoop y MapReduce:
En cuanto a MapReduce:
El uso de MAP REDUCE para trabajos complejos, consultas interactivas y procesamiento en tiempo real, involucra enormes cantidades de entrada y salida de disco.
El trabajo con Disco es muy lento !
Almacenar más datos en memoria. Usar más memoria en lugar de disco.
Caracteristica | Hadoop | Spark |
---|---|---|
Almacenamiento | Disco | En memoria o disco |
Operaciones | Map Reduce | Map Reduce Join, Sample |
Modelo de ejecución | Por lotes | Por lotes Interactivo Streaming |
Lenguaje | Java | Scala, Java, R y Python |
Procesamiento en Memoria, puede marcar gran diferencia
Las ventajas principales de Spark: