Hadoop nedir
Apache Hadoop Java ile yazılmış açık kaynak kodlu bir frameworktür. Sıradan sunuculardan (commodity hardware) oluşan küme (cluster) üzerinde büyük verileri işlemeye yarar.
Hadoop : Dağıtık (distributed ) programlama için geliştirilmiş Güvenilir(reliable) ve ölçeklenebilir(scalable) bir yazılımdır.
“Hadoop nasıl başladı?”
sorusunun cevabı bizi Nutch isimli Apache projesine götürür[3]. Nutch’ın temelleri ise Google arama motoru yapmak için işe başlandığında bunun en hızlı şekilde yapabilmesi için GFS ve MapReduce teknolojilerinin yayınlaması ile atıldı”[3] Hadoop Projesi 4 modülden oluşmaktadır
- Hadoop Common: Bütün Hadoop modüllerini destekleyen ortak modüldür.
- Hadoop Distributed File System (HDFS) : Dağıtık yani birden çok bilgisayar üzerinde çalışan bir dosya sistemidir ve uygulama verilerinin kaydedilmesi için kullanılır.
Birçok makinedeki dosya sistemlerini birbiriyle bağlayarak tek bir dosya sistemi gibi gözükmesini sağlar. HDFS, düğüm noktalarının (node’ların) her zaman yüzde 100 çalışamayacağını, kesintiler olabileceğini baştan kabul eder. Bu yüzden veri güvenliğini, verinin birden fazla düğüm noktasına kopyalayarak sağlar.

Şekil 1.1 HDFS mantığını açıklamaktadır. 10 makine birleşerek tek bir makine gibi görünür ve zamandan büyük bir kazanç sağlar.
- Hadoop YARN: İş zamanlayıcı (job scheduler) ve kaynak yönetimini yapan bir dizi kütüphanedir.
- Hadoop MapReduce: İşlem frameworküdür. Büyük veri setlerinin paralel işlenmesi için gereklidir.
“Hadoop son zamanlarda büyük verileri analiz etmek için şirketlerin tercih ettiği bir araç haline geldi[4].Birçok şirket günlük terabaytlarca veriyi yönetmek zorundadır ve bu tahmin edeceğiniz gibi çok zor bir iştir [4]. Geleneksel altyapı bu tür verilerin üzerinde işlemler gerçekleştirmek bunların analitik verilerini oluşturmak için eksik kalmaktadır bu nedenle şirketler açık kaynak kodlu hadoop teknolojisine yönelerek bu sorunlarını çözmeye çalışmaktadırlar[4]. Şirketler teknik riskleri azaltmak ve hızdan kazanmak amacıyla Cloudera gibi Hadoop dağıtımlarına da yönelebilirler[4].” Hadoop yazılımını destekleyen ve gelişmesine yardımcı olan şirketler arasında; Cloudera, Google, Amazon, Ebay, Yahoo, Facebook, Microsoft gibi devler vardır.

Şekil 1.2 Hadoop sunucuların normal sunucularından farkı
Hadoop resmi sayfası için : http://hadoop.apache.org/