Veri Madenciliği ve İstatistik Arasındaki Fark

noktalıvirgül

Deneyimli Moderatör
17 Kas 2020
918
502
Veriler analiz edilirken “veri madenciliği” ve ” istatistik” alanlarında ayrı ayrı yöntem ve değerlendirmelerle sonuçlara ulaşılabilmektedir.

Bu iki kavram birbirinden bağımsız ve farklıdır. Biri, diğerinin alt dalı veya alanı değildir. İstatistik alanının terimsel kökeni veri madenciliğine göre çok daha eskiye dayanmaktadır.
lijz1cm.jpg

osvhxhk.jpeg

İstatistiksel yöntemler çok büyük ölçekli veri setlerini analiz etme konusunda yetersiz kalabilmektedir. Böyle durumlarda veri madenciliğine başvurulur; çünkü büyük veri setlerinde veri madenciliği yöntemleri başarılı olmaktadır. İstatistiksel analizlerde ana veri kütlesini temsil eden “örneklem” denilen küçük kütleler vardır. Bu kütleler ile istatistik analizleri kullanışlı hale gelir. Veri madenciliğinde ise veri setinin tamamı seçilebilir. Bu veri setleri de çok büyük, karmaşık ve çeşitli olması sebebiyle veri madenciliği analizleri bilgisayar kullanılarak yapılması gerekmektedir, yani veri madenciliğinde bilgisayar ön plandadır, fakat istatistiksel analizlerle incelenen veri seti küçük ölçekli olduğu için bilgisayara her zaman ihtiyaç duyulmaz.

İstatistiğin kökenleri ve ortaya çıkış zamanları göz önüne alındığında, istatistik analizleri veri madenciliği ve bilgisayarlardan daha eskilere dayandığı için istatistik analizleri uzun süre bilgisayar olmadan yapılmıştır. Yani istatistiksel analizler için mutlaka bilgisayar desteğine ihtiyaç yoktur.

İstatistiksel araştırmalarda analizden önce bir hipotez belirlenmiştir. Veri madenciliği araştırmalarında ise hipotezden bahsedilmez. İstatistiksel analizlerde hipotezden yola çıkıldığı için apriori (deneyden bağımsız, yalnızca akıl yoluyla) bilgi ile analize başlanabilmektedir. Bu şekilde izlenen yolda hipotezin doğruluğu ya da yanlışlığı analizin sonucunda ispatlanmış olur. Veri madenciliğinde ise böyle bir amaç yoktur.

b8gwjpy.jpg


Analiz yapılırken veri madenciliği analizlerinde tümdengelim (genelden özele) yaklaşımı, istatistiksel analizlerde ise tümevarım (özelden genele) yaklaşımı kullanılır. Böylelikle veri madenciliği analizlerinde veri setinin tamamı ele alındığı için daha özel/yerel bilgiye ulaşılabilir. İstatistiksel analize göre ise tümevarım yaklaşımı kullanılma sebebi, seçilen örneklemin analiz edildiğinde çıkan sonuçlar tüm veri için genellenebilir olmasıdır.
 
Üst

Turkhackteam.org internet sitesi 5651 sayılı kanun’un 2. maddesinin 1. fıkrasının m) bendi ile aynı kanunun 5. maddesi kapsamında "Yer Sağlayıcı" konumundadır. İçerikler ön onay olmaksızın tamamen kullanıcılar tarafından oluşturulmaktadır. Turkhackteam.org; Yer sağlayıcı olarak, kullanıcılar tarafından oluşturulan içeriği ya da hukuka aykırı paylaşımı kontrol etmekle ya da araştırmakla yükümlü değildir. Türkhackteam saldırı timleri Türk sitelerine hiçbir zararlı faaliyette bulunmaz. Türkhackteam üyelerinin yaptığı bireysel hack faaliyetlerinden Türkhackteam sorumlu değildir. Sitelerinize Türkhackteam ismi kullanılarak hack faaliyetinde bulunulursa, site-sunucu erişim loglarından bu faaliyeti gerçekleştiren ip adresini tespit edip diğer kanıtlarla birlikte savcılığa suç duyurusunda bulununuz.