Big Data nedir?
Geçmişten günümüze kadar gelen süre içerisinde bilgi günden güne artmıştır hatta son yıllarda katlanarak günümüze gelmiştir. Bunun sonucunda “Bilgi Çöplüğü” diye tabir ettiğimiz olgu gün yüzüne çıkmıştır[1].Birçok yazılım şirketleri bu konuyla ilgili Ar-Ge çalışmaları yaptıktan sonra Big Data(Büyük Veri) olgusu karşımıza çıkmıştır[1]. Büyük veri; toplumsal medya paylaşımları, ağ günlükleri, bloglar, fotoğraf, video, log dosyaları v.b. gibi değişik kaynaklardan toparlanan tüm verinin, anlamlı ve işlenebilir biçime dönüştürülmüş biçimine denir[1]. Artık gereksiz ve çöp bilgi diye bir şey yoktu. Her bilgi değerliydi.
Büyük veri, doğru analiz metotları ile yorumlandığında şirketlerin stratejik kararlarını doğru bir biçimde almalarına, risklerini daha iyi yönetmelerine ve innovasyon yapmalarına imkân sağlayabiliyor[1].
“Büyük veri, geleneksel veritabanı araçları ve algoritmaları ile işlemesi zor olan bu büyük verinin oluşturulması, saklanması, akışı, analiz edilmesi gibi birçok konuyu içeren bir terim olarak karşımıza çıkmaktadır. Veriler klasik veritabanlarının kaldıramayacağı büyüklükte olduğu gibi verinin büyüme hızı da bir bilgisayar veya bir veri depolama ünitesini aşmaktadır. 2012 rakamları ile dünyada günlük 2.5 Kentirilyon byte veri üretilmektedir. Bu çapta büyük veriyi işleme, transfer etme gibi işlerin tümüne Büyük veri (Big Data) adı verilmektedir[1].”
2000 yılında tüm dünyada 800,000petabyte büyüklüğünde veri saklandı. 2020 yılındabu verinin 35 zetabyte olacağı tahmin ediliyor. Facebook, Twitter, Yahoove Google uzun süredir Big data kavramıyla uğraşmaktadır. Örneğin Twitter her gün 7 TB, Facebook 10 TB ve bazı kurumlar her gün her saat TB’larca veri saklıyor[2]. Big datayı en çok kullanan şirketlerden biride Google. Google her saat başı yaklaşık 1 perabyte veri işliyor.
Şekil 1.1 : Google sunucularından bir kare. Big Datayı geliştiren ve en çok kullanan şirketlerin başında Google geliyor.
Büyük veri platformunun oluşumunda beş bileşen vardır. Bunlar; variety, velocity, volume, verification ve value ‘dir. Genel olarak 5v diye açıklandığı için ingilizce karşılıklarına yer verilebilinir.
- Variety (Çeşitlilik): Üretilen verinin yüzde 80’i yapısal değil ve her yeni üretilen teknoloji, farklı formatlarda veri üretebiliyor. Telefonlardan, tabletlerden, bütünleşik devrelerden gelen türlü çeşitlilikte “Veri Tipi” ile uğraşılması gerekiyor. Bir de bu verilerin farklı dillerde, Non-Unicode olabileceğini düşünürseniz, bütünleşik olmaları, birbirlerine dönüşmeleri de gerekli.
- Velocity (Hız): Büyük Veri’nin üretilme hızı çok yüksek ve gittikçe artıyor. Daha hızlı üreyen veri, o veriye muhtaç olan işlem sayısının ve çeşitliliğinin de aynı hızda artması sonucunu doğuruyor.
- Volume (Veri Büyüklüğü): IDC istatistiklerine göre 2020’de ulaşılacak veri miktarı, 2009’un 44 katı olacak. Şu anda kullanılan, “büyük” diye adlandırdığımız kapasiteleri ve “büyük sistemleri” düşünüp, bunların 44 kat büyüklükte verilerle nasıl başa çıkacaklarını hayal etmek gerekiyor! Kurumun veri arşivleme, işleme, bütünleştirme, saklama vb teknolojilerinin bu büyüklükte veri hacmi ile nasıl başa çıkacağının kurgulanması gerekiyor. 2010’lu yıllarda dünyadaki toplam bilişim harcamaları yılda %5 artmakta, ancak üretine veri miktarı %40 artmaktadır.
- Verification (Doğrulama): Bu bilgi yoğunluğu içinde verinin akışı sırasında “güvenli” olması da bir diğer bileşen. Akış sırasında, doğru katmadan, olması gerektiği güvenlik seviyesinde izlenmesi, doğru kişiler tarafından görünebilir veya gizli kalması gerekiyor.
- Value (Değer): En önemli bileşen ise değer yaratması. Bütün yukarıdaki eforlarla tariflenen Büyük Veri’nin veri üretim ve işleme katmanlarınızdan sonra kurum için bir artı değer yaratıyor olması lazım. Karar veriş süreçlerinize anlık olarak etki etmesi,
Büyük Verinin Uygulandığı Örnekler
İnternet kullanımının yaygınlaşması ve herkesçe kullanılabilir olması yaşantımızı giderek değiştirdi.[1]. Artık ödemelerimizi internetten, alışverişimizi bir e –ticaret sitesinden, yapabiliyoruz.[1]. Dosyalarımızı, resimlerimizi bir bulut servisinde depolarken, akıllı telefonlarımızda tüm sosyal platformlarda gezinebiliyoruz.[1].
Böyle Değişen ve Globalleşen dünyada kişilerin bilgileri çok kıymetlendi. İnsanların internette yaptığı her bir şeyin değeri artıyordu.[1]. Bu verilerin önemini fark eden şirketler her türlü bilginin alınıp saklanması ve onları anlamlı hale getirmeye çalıştı.
İşletmeler; müşterilerini daha iyi tanıyıp, onlara “bireyselleştirilmiş – kişiye özel” hizmetleri sunabilmek için onlarla ilgili çok sayıda bireysel bilgiyi saklamak durumunda kalmaktadır.[1]
- Hükümetler; yurttaşlarına yönelik bilgi ve hizmetleri işleyip, saklama konusunda oluşan çok büyük ölçekli veri ile çalışmak zorundadırlar.[1]. Örneğin, RTÜK kararları gereği, ülkemizdeki televizyon kanallarının son bir yıllık yayınlarını saklama zorunluluğu var. Saklanacak bilgiler, “Büyük Veri” olarak tanımladığımız türden.[1]
- Bankalar, müşterileriyle ilgili olarak toplayıp sakladıkları bilgiler yoluyla, kullanıcısını tanıyan, internet şubesine o gün ne için girdiğini bilen ve buna göre ana sayfayı, menüyü en etkin hale getiren, müşterisine hatırlatmalar yapan, özelleştirilebilir arayüzler sunan, zengin içerikli, hızlı ve kullanışlı bir 7/24 şube haline geldi.[1]
- Enerji firmaları, akıllı şebeke ve sayaçlar kullanarak, abonelerinin bireysel kullanımlarıyla ilgili oluşan verileri, saklayıp, işlemek durumundalar.[1].
İlaç sanayisinde; örneğin “kanser araştırmaları” için oluşturulan büyük genomik veritabanları, araştırmacıların sürekli erişimine açık olmak durumundadır.[1]
- Sosyal Medya Araçları: Facebook, Twitter, Google, Yahoo gibi toplumsal medya ortamları tam bir veri deposuna dönüştü. Buradaki veriler çok büyük boyutlardaydı. Şirket müşterilerine en iyi hizmeti verebilmek için ve daha çok müşteriye hitap edebilmek için bu verileri anlamlı hale getirmeye çalıştı. Bu sosyal platformların büyük verinin öncüleriydi.
Ek olarak; Uydu/Harita Dizgeleri (GPS), Akıllı Gezgin Telefonlar (GSM), çok yüksek çözünürlüklü fotoğraflar çekebilen yeni nesil kameralarla üretilen, ses ve görüntü bilgileri big data kullanılarak saklanmaktadır[1].