Een collega tipte mij afgelopen week over een interessante ontwikkeling.

De laatste OpenStack release 'juno' bevat namelijk de mogelijkheid om big data applicaties te draaien in OpenStack. Door de module Sahara wordt dit mogelijk gemaakt. Het mooie is dat de laatste release het zelfs mogelijk maakt om Spark jobs binnen OpenStack te draaien, echter nog niet via YARN of Mesos maar in standalone mode.

Het doel van het Sahara project is om op een eenvoudige manier Hadoop clusters te kunnen draaien binnen OpenStack. Door een Hadoop versie op te geven en bijvoorbeeld enkele hardware eisen wordt er een nieuw cluster uitgerold in enkele minuten. Amazon biedt al enkele tijd vergelijkbare mogelijkheden met het Amazon Elastic MapReduce.

Het mooie van deze ontwikkeling is dat er een diepe integratie ontstaat tussen Hadoop en OpenStack. Het gaat veel verder dan alleen een paar VM's met Hadoop draaien bovenop OpenStack want dat kon natuurlijk al lang. :-)

Bronnen:

http://www.zdnet.com/openstack-hook...
http://docs.openstack.org/developer...
http://docs.openstack.org/developer...
http://docs.openstack.org/developer...
http://aws.amazon.com/elasticmapred...