Veri Bilimine Giriş
Bu yazımızda “Veri bilimi nedir?” sorusuna genel ve teknik olmayan bir cevap vereceğiz.

Dikkatinizi çektiyse günümüzde veri bilimi hayli popüler, hatta veri bilimciliği Harvard Business Review tarafından “21. yüzyılın en seksi mesleği” ilan edilmiş durumda. Ta 2009 yılında Google baş ekonomisti Prof. Hal Varian “Veri elde etme, veriyi anlayabilme, işleyebilme, veriden değer çıkarabilme, veriyi görselleştirebilme ve aktarabilme kabiliyetleri önümüzdeki on yılda son derece önemli yetenekler olacaklar,” diyerek veri biliminin bugün kanıtlanmış önemini öngörmüştür. Peki veri bilimini bu denli hayati kılan ne? Veri bilimi nedir, nasıl yapılır ve insanlığa neler vaat ediyor? Takip eden bölümlerde bu konularda bilgiler vererek veri bilimini okuyucuya tanıtmaya çalışacağız.
Veri Bilimi Nedir, Ne Değildir?
Kabaca tanımlayacak olursak, veri bilimi sürekli biriken verilerin barındırdığı bilgi ve anlayışı açığa çıkarmak için bilimsel yöntem, matematik, istatistik, programlama ve yapay zekâ iş birliğinden faydalanan çok-disiplinli bir bilim dalıdır.
Devam etmeden önce bir kavram karışıklığına değinelim. Şöyle ki veri bilimi, makine öğrenmesi ve veri madenciliği kavramlarının birçok yerde aynı şeyi ifade etmek için kullanıldığını sıkça görüyoruz. Bu disiplinlerin ortak yönü, veri analizi vasıtasıyla daha iyi kararlar almaya hizmet etmeleridir. Veri bilimi bu gruptaki en genel tabir olup aralarında en geniş kapsamlı olanıdır; sıklıkla makine öğrenimi ve veri madenciliğinden beslenir. Makine öğrenmesi, verideki (istatistiksel) örüntüleri yakalayıp bunlara dayanarak tahminler üretme kısmını ifade eder. Veri madenciliği belirli türde verilerin işlenmesi ve kullanılabilir verilerin çıkarılmasıdır. Veri bilimi kapsamında ise bu bahsedilen konuların hepsiyle uğraşılabilir.
Veri Biliminde İş Akışı
Veri bilimde, herhangi bir projenin genel olarak dört aşaması vardır. İlk olarak uygun kaynaklardan gerekli veri toplanır; bu anket verisi, web trafiği metrikleri, sosyal medya gönderileri, finansal işlemler vb. olabilir. Verileri toplandıktan sonra güvenli ve erişilebilir bir şekilde saklanır.
Veri biliminde iş akışı
Çoğu zaman topladığımız veriler ham haldedir, dolayısıyla sıradaki aşama verilerin uygun işlemlerden geçirilerek hazırlanmasıdır. Bu aşamada duruma göre veriyi “temizlemek”, birleştirmek, belli işlemlere uygun hale getirmek gibi işlemlerden bazılarını veya hepsini yapmak gerekebilir. Örneğin eksik yahut tekrarlanmış değerleri bulmak, veriyi daha düzenli bir hale getirmek gibi işlemler sıklıkla gerekli olur.
Sonraki aşamada hazırlanmış veriler incelenir ve görselleştirilir. Bu aşamada verinin zamanla nasıl değiştiğini gösteren paneller yapmak veya iki veri seti arasında karşılaştırma yapmaya imkân verecek grafikler oluşturmak yaygın işlemlerdendir.
Son aşamada veri üzerinden deneyler ve tahminler yürütülür. Bu amaçlara uygun algoritmaların, analitik yöntemlerin ve yapay zekâ modellerinin geliştirilmesini ve kullanılması gerekir. Ardından tahminlerin isabetliliği bilimsel test ve deneyler aracılığıyla doğrulanmalıdır. Örneğin, ne tür değişikliklerin bir web sitesine daha çok kullanıcı çekeceğine dair bir test yahut tarihi verilere göre hava tahmini yapan bir sistem düşünülebilir. Sonuçlar veri görselleştirme araçlarının etkin kullanımı ile raporlanmalı ve ilgili kişilerin tespit edilen örüntü ve trendleri kolayca kavraması sağlanmalıdır.
Veri Biliminin Kullanım Alanları
Veri bilimi pek çok sektörün ilerlemesine katkı sağlamaktadır.
Bugün dünyada veri biliminin bir şekilde kullanılmadığı bir endüstri hemen hemen yoktur denebilir. Bazı örneklerden bahsedelim.
Bankacılık veri biliminin en yaygın olarak uygulandığı alanlardan biridir. Bankalar veri bilimi uygulamalarını kaynakların verimli kullanılması, sahtekârlık tespit etme, müşteri verisini yönetme, risk modelleme, gerçek-zamanlı tahminler yapma, müşteri segmentasyonu gibi işlerde kullanarak daha iyi kararlar verebilirler.
Finans sektöründe veri bilimi çeşitli finansal işlerin otomatik hale getirilmesinde kilit rol oynamaktadır. Finans şirketleri makine öğrenmesini risklerin tespiti, takibi ve önceliklendirilmesinde kullanırlar. Bunun yanında makine öğrenmesini müşteri yaşam süresi değeri ve müşterilerin hisse piyasasında harekelerinin tahmini için de kullanırlar. Ayrıca veri bilimi algoritmik hisse ticaretinde de önemli rol oynar. Verinin detaylı analizi ile finans kurumları veriye dayalı kararlar verebilirler.
Günümüzde veri bilimciler de fabrika işçileri olabilirler. Üretim endüstrisinde veri bilimi yaygın olarak kullanılmakta ve üretim optimizasyonuna, masrafların azaltılmasına ve kârlılığın artırılmasına katkı sağlamaktadır. Bunların haricinde veri bilimcileri müşteri yorumlarını doğal dil işleme (İng: natural language processing, NLP) gibi yöntemlerle analiz ederek kurumların ürün kalitesini artıracak kararlar almasına yardımcı olabilirler.
Veri biliminin bir başka uygulama alanı ulaşım sektörüdür. Gerek daha güvenli bir sürüş sağlama, gerek araç performansının iyileştirilmesi konularında veri biliminin etkileri görülmektedir. Fakat veri biliminin bu sektördeki en heyecan verici uygulaması sürücüsüz arabaların geliştirilmesidir. Bunların yanı sıra Uber gibi firmalar veri bilimini kullanarak ulaşım fiyatlarını hava durumu, araç müsaitliği ve müşteri talebi gibi değişkenleri baz alarak isabetli şekilde tahmin ve optimize edebilmektedirler.
Veri bilimi sağlık sektöründe de kayda değer gelişmelerin önünü açmıştır. Tıbbi görüntü analizi, genom analizi, ilaç keşfi, teşhis için tahmin edici modeller, sağlık robotları ve sanal asistanlar bunlardan bazılarıdır.
E-ticaret endüstrisi veri biliminden en büyük faydayı sağlamış sektörlerden biridir. Potansiyel müşteri tabanlarının tespit edilmesi, ürün ve hizmetlerin göreceği talebin tahmin edilmesi, fiyat yapılandırmasının optimize edilmesi gibi işlerin hepsinde veri bilimi büyük kolaylık sağlamıştır. Ayrıca müşterilerin alışveriş geçmişine dayanarak yeni ürünlerin önerilmesi de veri bilimi sayesinde yerleşmiştir.
Netflix, Spotify gibi dijital içerik sağlayan firmalar da veri biliminin yoğun olarak kullanırlar. Abonelerinin içerik tüketme kayıtlarına bakarak onlara hangi içerikleri önereceklerini belirlemek için sürekli biriken verilerle eğitilmiş makine öğrenmesi algoritmalarına güvenirler.
Sonuç
Bu yazımızda veri biliminin genel bir tanıtımını amaçladık. İlerleyen yazılarda burada bahsedilen konulara ve fazlasına dair daha detaylı yazıların yanında veri bilimi uygulamalarına dair teknik içerikli vaka çalışmaları da göreceksiniz.