Les paso dos scripts que pueden usar para probar sus trabajos prácticos.
Dentro de este zip (Weather) hay dos scripts (mapper.sh y reduce.pl) que están programados para procesar este set de datos:
- http://www.utn.so/weather/201301hourly.txt.gz
- http://www.utn.so/weather/201302hourly.txt.gz
- http://www.utn.so/weather/201303hourly.txt.gz
Deberían bajar los archivos, descomprimirlos, copiarlos al proceso FileSystem y crear un job (con combiner) que procese los tres archivos.
El resultado del job es la temperatura máxima de cada día detectada en cada estación meteorológica (WBAN) de EEUU.
También para probar los scripts los pueden ejecutar de esta manera:
time zcat *hourly.txt.gz | ./mapper.sh | sort | ./reduce.pl
Debe tardar unos minutos en responder.
Un buen cluster de ReduceMapFast lo va a hacer mucho más rápido 😉
PD: pueden bajar el archivo completo desde esta carpeta de Dropbox: https://www.dropbox.com/sh/78jminnuolneb19/AAAvcrSIfCx16YwiM5ftxVfGa?dl=0