İçeriğe geç
Home » Blog » Veri Bilimi Hakimi Olmak İçin Gerekli 10 Beceri

Veri Bilimi Hakimi Olmak İçin Gerekli 10 Beceri

Veri Bilimine Hakim Olmak İçin Gerekli 10 Beceri

Bu aralar, sizin de kulağınıza çok çalınmıştır: “Geleceğin en önemli meslekleri arasında veri bilimi önemli yer tutacak.” Veri Bilimi Hakimi Olmak İçin Gerekli 10 Beceri yazımızı, bu alanda araştırma yapmak ve yeni yetenekler edinmek isteyenler için, bir yol gösterici olması amacıyla çevirdik. Bu yazının oluşması için bize kaynak olan şu makaleye göz atmanızı öneririz.

Veri Bilimi, veri hazırlama ve araştırma gibi çeşitli alt bölümleri içeren çok geniş bir alandır; veri gösterimi ve dönüşümü; veri görselleştirme ve sunumu; tahmine dayalı analitik; makine öğrenimi vb. başlıklar içerir. Yeni başlayanlar için şu soruyu sormak doğaldır: “Veri bilimcisi olmak için hangi bilgi ve becerilere ihtiyacım var?”

Sıralayacağımız beceriler 2 kümede yer alıyor. Birincisi teknolojik beceriler (Matematik ve İstatistik, Kodlama, Veri İşleme ve Ön İşleme, Veri Görselleştirme, Makine Öğrenmesi ve Gerçek Dünya Proje Becerileri) İkincisi kümedeki sosyal beceriler ise “İletişim Becerileri” ve “Yaşam Boyu Öğrenme” olmak üzere 2 kategoriye ayrılabilir. Takım oyuncusu olma ve etik de yine bu kümenin içinde yer alan kavramlar. Lafı uzatmayalım ve listeyi oluşturmaya başlayalım.

1. Matematik ve İstatistik

(I) İstatistik ve Olasılık

İstatistikler ve Olasılık, özelliklerin görselleştirilmesi, veri ön işleme, özellik dönüşümü, veri atama, boyut azaltma, özellik mühendisliği, model değerlendirme vb. Gereksinimler için kullanılır. Aşina olmanız gereken konular şunlardır:

a) Ortalama

b) Medyan

c) Mod

d) Standart Sapma / Varyans

e) Korelasyon Katsayısı ve Kovaryans matrisi

f) Olasılık Dağılımları (Binom, Poisson, Normal)

g) p-değeri

h) MSE (Ortalama Kare Hatası)

i) R2 Puanı

j) Baye Teoremi (Kesinlik, Geri Çağırma, Pozitif Öngörücü Değer, Negatif Öngörücü Değer, Karışıklık Matrisi, ROC Eğrisi)

k) A / B Testi

l) Monte Carlo Simülasyonu

(II) Çok Değişkenli Analiz

Çoğu makine öğrenmesi modeli, birkaç özelliğe veya öngörücüye sahip bir veri kümesiyle oluşturulur. Bu nedenle, çok değişkenli analize aşinalık, bir makine öğrenmesi modeli oluşturmak için son derece önemlidir. Aşina olmanız gereken konular şunlardır:

a) Birkaç değişkenli fonksiyonlar

b) Türevler ve gradyanlar

c) Adım fonksiyonu, Sigmoid fonksiyonu, Logit fonksiyonu, ReLU (Rectified Linear Unit) fonksiyonu

d) Maliyet fonksiyonu

e) Fonksiyonların grafiklendirilmesi

f) Bir fonksiyonun asgari ve azami değerleri

(III) Doğrusal Cebir

Doğrusal cebir, makine öğrenimindeki en önemli matematik becerisidir. Bir veri seti, bir matris olarak temsil edilir. Doğrusal cebir, veri ön işleme, veri dönüştürme ve model değerlendirmede kullanılır. Aşina olmanız gereken konular şunlardır:

a) Vektörler

b) Matrisler

c) Bir matrisin transpoze edilmesi

d) Bir matrisin tersi

e) Bir matrisin determinantı

f) Nokta çarpım

g) Özdeğerler

h) Özvektörler

(IV) Optimizasyon Yöntemleri

Çoğu makine öğrenmesi algoritması, nesnel bir işlevi en aza indirerek tahmini modelleme gerçekleştirir, böylece tahmin edilen etiketleri elde etmek için test verilerine uygulanması gereken ağırlıkları da öğrenir. 

Aşina olmanız gereken konular şunlardır:

a) Maliyet işlevi / Amaç işlevi

b) Olabilirlik işlevi

c) Hata işlevi

d) Gradyan İniş Algoritması ve Çeşitleri (Örneğin: Stokastik Gradyan İniş Algoritması)

2. Temel Programlama Becerileri

Veri biliminde programlama becerileri çok önemlidir. Python ve R, veri biliminde en popüler 2 programlama dili olarak kabul edildiğinden, her iki dilde de temel bilgi sahibi olmanız çok önemlidir. Bazı kuruluşlarda kariyer yapmak için yalnızca R veya Python bilmeniz gerektirebilir, bazılarında ise ikisini birden bilmelisiniz.

(I) Python

Python’daki temel programlama becerilerine aşina olun. İşte nasıl kullanılacağına hakim olmanız gereken en önemli paketler:

a) Numpy

b) Pandas

c) Matplotlib

d) Seaborn

e) Scikit-learn

f) PyTorch

(ii) Skills in R

a) Tidyverse

b) Dplyr

c) Ggplot2

d) Caret

e) Stringr

(iii) Diğer Programlama Dillerinde Beceriler

Aşağıdaki endüstri standartları veya programlama dilleri, bazı kuruluşlar veya endüstriler tarafından elzem olabilir:

a) Excel

b) Tableau

c) Hadoop

d) SQL

e) Spark

3. Veri Düzeltme ve Ön İşleme Becerileri

Veriler, ister çıkarıma dayalı analiz, öngörücü analiz veya kuralcı analiz tipinde olsun; veri biliminde, herhangi türdeki bir analiz için yapı taşıdır. Bir modelin tahmin gücü, modelin oluşturulmasında kullanılan verilerin kalitesine bağlıdır. Veriler, metin, tablo, görüntü, ses veya video gibi farklı biçimlerde gelir. Çoğu zaman, analiz için kullanılan verilerin daha fazla analiz için uygun bir biçime dönüştürülmesi için madencilik tabir edilen kavrama uygun olarak “çıkarılması”, işlenmesi ve dönüştürülmesi gerekir.

i) Veri İşleme: Veri işleme süreci, herhangi bir veri bilimcisi için kritik bir adımdır. Çok nadiren, analiz için bir veri bilimi projesinde verilere kolayca erişilebilir. Verilerin bir dosyada, veritabanında saklı olması veya web sayfaları, tweet’ler veya PDF’ler gibi belgelerden taranarak çıkarılması daha olasıdır. Verileri nasıl karıştıracağınızı ve temizleyeceğinizi bilmek, aksi takdirde habersiz kalacağınız kritik içgörüler elde etmenizi sağlayacaktır.

ii) Veri Ön İşleme: Veri ön işleme hakkında kavramsal bilginin ötesinde yetkinliğie sahip olmak çok önemlidir ve aşağıdaki gibi konuları içerir:

a) Eksik verilerle başa çıkmak

b) Veri isnat etme

c) Kategorik verileri işleme

d) Sınıflandırma problemleri için kodlama sınıf etiketleri

e) Temel Bileşen Analizi (PCA) ve Doğrusal Ayrım Analizi (LDA) gibi özellik dönüştürme ve boyut azaltma teknikleri.

4. Veri Bilimi ve Veri Görselleştirme Becerileri

İyi bir veri görselleştirmesinin temel bileşenlerine hakim olmanız gerekir.

a) Veri Bileşeni: Verilerin nasıl görselleştirileceğine karar vermenin önemli bir ilk adımı, verilerin ne tür veri olduğunu bilmektir. Ör: Kategorik veriler, Ayrık veriler, Sürekli veriler, Zaman Serisi verileri vb.

b) Geometrik Bileşen: Verileriniz için ne tür görselleştirmenin uygun olduğuna bu aşamada karar verirsiniz. Ör: Dağılım Grafiği, Çizgi Grafikleri, Barplotlar, Histogramlar, Qqplots, Yoğunluklar, Isı haritaları vb.

c) Eşleme Bileşeni: Burada, X’e hangi değişkeni, Y’ye hangi değişkeni tanımlayacağınıza karar vermelisiniz. Bu, özellikle veri kümeniz çeşitli özelliklerle çok boyutlu olduğunda önemlidir.

d) Ölçek Bileşeni: Burada ne tür ölçeklerin kullanılacağına karar verirsiniz. Ör: Doğrusal Ölçek, Günlük Ölçek vb.

e) Etiketler Bileşeni: Bu, eksen etiketleri, başlıklar, göstergeler, kullanılacak yazı tipi boyutu vb. tamamen görsel kriterleri içerir.

f) Etik Bileşen: Burada, görselleştirmenizin gerçek hikayeyi anlattığından emin olmak istersiniz. Bir veri görselleştirmesini temizlerken, özetlerken, işlerken ve üretirken eylemlerinizin farkında olmanız ve görselleştirmenizi hedef kitlenizi yanıltmak veya manipüle etmek için kullanmadığınızdan emin olmanız gerekir.

5. Temel Makine Öğrenmesi Becerileri

Makine Öğrenmesi, veri biliminin çok önemli bir dalıdır. Makine öğrenmesi çerçevesini çok iyi anlamak hayati öneme sahiptir. Bu çerçevede Problem Çerçeveleme; Veri Analizi; Model Oluşturma, Test Etme ve Değerlendirme ve Model Uygulaması yer alır.

Aşağıdakiler aşina olunması gereken önemli makine öğrenimi algoritmalarıdır.

i) Denetimli Öğrenme (Sürekli Değişken Tahmin)

a) Temel Regresyon

b) Çoklu Regresyon analizi

c) Düzenli Regresyon

ii) Denetimli Öğrenme (Kesikli Değişken Tahmin)

a) Lojistik Regresyon Sınıflandırıcı

b) Destek Vektör Makinesi Sınıflandırıcısı

c) K-en Yakın Komşu (KNN) Sınıflandırıcısı

d) Karar Ağacı Sınıflandırıcısı

e) Rastgele Orman Sınıflandırıcısı

iii) Denetimsiz Öğrenme

a) K-Means Algoritması

6. Gerçek Dünya Capstone (Bitirme) Veri Bilimi Projeleri

Kurs ya da labaratuar çalışmasından kazanılan beceriler tek başına sizi bir veri bilimcisi yapmaz. Nitelikli bir veri bilimcisi, problem çerçeveleme, veri toplama ve analizi, model oluşturma, model testi, model değerlendirme gibi veri bilimi ve makine öğrenmesi sürecindeki her aşamayı içeren gerçek dünya veri bilimi projesinin başarılı bir şekilde tamamlandığına dair kanıt gösterebilmelidir. Gerçek dünya veri bilimi projeleri aşağıdaki şekillerde bulunabilir:

a) Kaggle Projeleri

b) Stajlar

c) Görüşmeler

7. İletişim Becerileri

Veri bilimcilerin fikirlerini ekibin diğer üyelerine veya kuruluşlarındaki işletme yöneticilerine net biçimde iletebilmeleri gerekir. Veri bilimindeki teknik kavramları çok az anlayan veya hiç anlayamayan insanlara, son derece teknik bilgileri aktarabilmek ve sunabilmek için, iyi iletişim becerilerine sahip olmak burada kritik bir rol oynayacaktır. İyi iletişim becerileri, veri analistleri, veri mühendisleri, saha mühendisleri vb. gibi diğer ekip üyeleriyle birlik ve beraberlik atmosferini geliştirmeye yardımcı olacaktır.

8. Öğrenmeyi Hayat Boyu Sürdürme

Veri bilimi sürekli gelişen bir alandır, bu nedenle yeni teknolojileri kucaklamaya ve öğrenmeye hazır olun. Alandaki gelişmelerden haberdar olmanın bir yolu, diğer veri bilimcileriyle ağ kurmaktır. Ağ oluşturmayı destekleyen bazı platformlar LinkedIn, Reddit, Github ve Medium’dur. (Türkiye’de EkşiSözlük’te, bu alanda yazı paylaşan yazarlarla da iletişime geçebilirsiniz.) Platformlar, alandaki son gelişmeler hakkında güncel bilgileri edinmek için çok kullanışlıdır.

9. Takım Oyuncu Becerileri

Bir veri bilimcisi olarak, veri analistleri, mühendisler, yöneticilerden oluşan bir ekipte çalışacaksınız. Bu nedenle iyi iletişim becerilerine ihtiyacınız var. İyi bir veri bilimi projesi tasarlayıp çerçeveleyebilmek için mühendislere veya diğer çalışanlara, proje geliştirmenin erken aşamalarında, iyi bir dinleyici olarak güvenmeniz gerekir. İyi bir takım oyuncusu olmak, bir iş ortamında başarılı olmanıza ve ekibinizin diğer üyeleri ve kuruluşunuzun yöneticileri veya direktörleri ile iyi ilişkiler sürdürmenize yardımcı olur. Sizi daima ileriye taşır.

10. Veri Bilimi ve Etik

Projenizin gerçek ve derin anlamını haiz olun. Kendinize karşı dürüst olun. Verileri manipüle etmekten veya sonuçlarda kasıtlı olarak önyargı oluşturacak bir yöntem kullanmaktan kaçının. Veri toplamadan analize, model oluşturmaktan test etmeye ve tabii ki uygulamaya kadar tüm aşamalarda etik olun. Hedef kitlenizi yanıltmak veya manipüle etmek amacıyla sonuçlar uydurmaktan kaçının. Veri bilimi projenizden elde ettiğiniz bulguları yorumlama şeklinizde etik olun.

Veri bilimi sürekli gelişen bir alandır, ancak veri biliminin temellerine hakim olmak size derin öğrenme, yapay zeka vb. gibi gelişmiş kavramları takip etmek için ihtiyaç duyduğunuz gerekli arka planı sağlayacaktır. Bu makale, bu alanda araştırma yapmak ve yeni yetenekler edinmek isteyenler için doğru bir başlangıç noktası olacak.

Bu yol gösterici yazısı için Benjamin Obi Tayo‘ya teşekkür ederiz. Diğer yazılarımız için tıklayın.