Başlangıç » Yazılar 'spss egiğiti' ile etiketlendi

Etiket arşivi: spss egiğiti

Kümeleme Analizi

Kasım 26, 2012 4:00 pm / Yorum yapın

Kümeleme analizi veriyi anlamlı, yararlı yada hem anlamlı hem de yararlı gruplara(kümelere) ayırır. Eğer amaç anlamlı gruplar ise, bu durumda kümeler verinin doğal yapısını yakalamalıdır. Bununla birlikte bazı durumlarda, kümeleme analizi başka amaçlar için yalnızca bir başlangıç noktasıdır, örneğin verinin özetlenmesi gibi. İster anamla isterse de fayda için olsun, kümeleme analizi bir çok alanda uzun bir süre için önemli bir rol oynadı; örneğin, piskoloji ve diğer sosyal bilimler, biyoloji, istatistik, patern tanıma, bilgi çıkarma, makine öğrenmesi ve veri madenciliği

Kümeleme analizinin pratik problemler için birçok uygulaması olmuştur. Biz kullanım amacının anlama yada fayda olmasına göre organize edilmiş özel örnekler sunacağız.

Anlama için kümeleme : Sınıflar, yada kavramsal olarak ortak karakteristikleri paylaşan anlamlı nesne grupları, insanların dünyayı anlama ve tanımlamalarında önemli rol oynar. Gerçekten de, insanlık nesneleri gruplara ayrımada(kümeleme) ve çeşitli nesneleri bu guplara atamada(sınıflandırma) yeteneklere sahiptirler. Örneğin, yaşı küçük olmasına rağmen bir çocuk bir resimdeki nesneleri yapılar, arabalar, insanlar, hayvanlar, bitkiler diye etiketlendirebilir. Veriyi anlama bağlamında, kümeler potansiyel sınıflardır ve kümeleme analizi sınıfların otomatik olarak bulunmasına yönelik tekniklerin araştırılmasıdır. Aşağıda çeşitli örnekler verilmektedir:

• Biyoloji. Biyologlar uzun yıllar canlılar için bir taksonomi yani hiyerarjik sınıflandırma çabası içinde oldular örneğin; kırallık, birlik, sınıf, düzen, aile, cins ve tür. Bu yüzden kümeleme analizindeki ilk çalışmaların sınıflandırma yapılarını otomatik olarak elde edecek matematiksel taksonomi üzerinde yoğunlaşması şaşırtıcı değildir.Son zamanlarda, biyologlar sınıflandırma analizini büyük miktardaki gen bilgilerine uygulamaktadırlar. Örneğin kümeleme aynı özellikteki genlerin bulunmasında kullanılmıştır.

• Bilgi çıkarma. Örütbağ (World Wide Web) milyarlarca web sayfası içerir ve bir arama moturuna yapılacak bir sorgu binlerce sayfa geri döndürebilir. Kümeleme bu bilgilerin çeşitli gruplara ayrılmasında kullanılabilir böylece her grup sorgunun bir yönüne yönelik olur. Örneğin bir “film” sorgusu sonuçları eleştiri, fragman, yıldızlar ve tiyatrolar şeklinde kümelere ayırabilir. Her küme tekrardan kümelere ayrılabilir böylece kullanıcının sonuçları daha iyi irdelemesine yardımcı olabilir.

• İklim. Yeryüzü iklimini anlamak, atmosfer ve okyanuslara yönelik çeşitli paternlerin bulunmasını gerektirir. Şu ana kadar, sınıflandırma analizi kutupsal bölgelerin atmosferik basınçlarına ilişkin paternlerin ve kara iklimine önemli etkisi bulunan okyanus alanlarının bulunmasında kullanılmıştır.

• Piskoloji ve tıp. Bir hastalık veya sağlık durumu sık sık çeşitli varyasyonlar(çeşitlilik) gösterir ve kümeleme analizi bu değişik çeşitlilikleri ortaya çıkarmada kullanılabilir. Örneğin kümeleme depresyonun değişik türlerinin belirlenmesinde kullanılmıştır. Kümeleme analizi aynı zamanda hastalıkların zaman ve mekanda dağılımı ile ilgili paternlerin ortaya çıkarılmasında da kullanılabilir.

• Ticaret. Ticaret o anki veya potansiyel müşteriler ile ilgili çok geniş miktarda bilgi toplar. Kümeleme müşterileri daha küçük alt gruplara ayırmada böylece fazladan analiz ve pazarlama aktiviteleri yürütmede kullanılabilir.

Fayda için kümeleme: Kümeleme analizi her bir veri nesnesinden bu veri nesnelerinin ait oldukları kümelere ilişkin bir soyutlama yapmaya imkan verir. Ayrıca, bazı kümeleme teknikleri her kümeyi, küme prototipleri cinsinden karakterize eder yani bir veri nesnesi aynı kümdeki diğer verileri temsil eder. Bu küme prototipleri çeşitli veri analiz ve veri işleme teknikleri için temel olarak kullanılabilirler. Bu yüzden fayda bağlamında, kümeleme analizi en iyi temsil eden küme prototipini bulma çalışmasıdır.

Özetleme. Bir çok veri analiz tekniği; örneğin regresyon(geri çekilme) yada PCA zaman yada mekan olarak O(M2) yada daha yüksek karmaşıklığa sahiptirler, bu yüzden büyük miktarda veriler için uygulanabilir değildirler. Bununla birlikte, algoritmayı tüm veri setine uygulamak yerine, yalnızca küme prototiplerini içeren azaltılmış bir veri setine uygulanabilirler. Analizin türüne, prototip sayısı ve prototipin veriyi temsil etme doğruluğuna bağlı olarak sonuçlar tüm veri setinin kullanılması durumundaki sonuçlara benzer, bir başka deyişle bunlarla mukayese edilebilecek düzeyde olabilir.

Sıkıştırma. Küme prototipleri veri sıkıştırma için de kullanılabilirler. Özellikle, her bir küme için prototipleri içeren tablolar oluşturulur yani her bir prototipe onun tablodaki yerini gösteren bir indis değeri atanır. Her nesne kümesiyle ilişkili prototipin indis değeri ile temsil edilir. Bu tür sıkıştırma vektör kuantalama olarak bilinir ve sıklıkla görüntü, ses ve video verlerine uygulanır ki bu tür veri nesleri içerisinde birbirine benzeyenlerin sayısı fazladır ve bazı verilerin kaybedilmesi kabul edilebilirdir ve ayrıca bir önemli miktarda veri azaltılması da istenen bir durumdur.

En yakın komşunun verimli bir şekilde bulunması. En yakın komşunun bulunması karşılıklı olarak tüm noktalar arasındaki uzaklığın bulunmasını gerekli kılabilir. Sıklıkla kümeler ve onların küme prototipleri çok daha verimli olabilirler. Eğer nesneler görece olarak küme prototiplerine yakın ise, bu durumda bir nesnenin en yakın komşusunu bulmak için gerekli olan uzaklık hesaplamalarının sayısını prototipleri kullanacak azaltabiliriz. Sezgisel olarak, eğer iki küme prototipi birbirinden çok uzak iseler, bu durumda bu iki kümedeki nesneler de en yakın komşu olamazlar. Dolayısıyla, bir nesnenin en yakın komşusunu bulmak için yalnızca yakın kümedeki nesnelere olan uzaklıklarını bulmak yeterli olacaktır; öyle ki iki küme arasındaki yakınlık onların prototipleri arasındaki uzaklıkla ölçülür. Bu fikir sayfa 94’ teki örnek 25’ te daha açık bir şekilde verilmiştir.

Bu bölüm kümeleme analizine bir giriş niteliğindedir. Öncelikle nesneleri küme setlerine ayırmayı ve değişik türdeki kümeleri de içeren genel bir bakış yapacağız, ardından bir çok kavramı açıklayan ve geniş bir algoritma kategorisini temsil eden üç özel kümeleme tekniğini açıklayacağız: K-means, agglomerative hiyerarşik kümeleme ve DBSCAN. Bu bölümün son kısmı ise kümeleme doğruluğuna ayrılmıştır. Kümeleme doğruluğu kümeleme algoritmalarınca üretilen kümelerin gerçerliliğini ve ne kadar iyi olduğunu bulan metodları içerir. Çok daha ileri kümeleme kavram ve algoritmaları ise bölüm 9’ da anlatılmıştır. Yeri geldikçe, değişik yaklaşımların güçlü ve zayıf olan yönlerine de değineceğiz. Ek olarak, kaynakça notlarında kümeleme analizini daha ayrıntılı bir şekilde inceleyen kitap ve makalelere de referans verilmiştir.

Kümeleme Analizi Nedir?

Kümeleme analizi veri nesnelerini yalnızca nesneleri tanımlayan ve ilişkilerini ortaya koyan verilerden çıkarılacak bilgiler ışığında gruplar. Amaç aynı grup içerisindeki nesnelerin birbirine benzer veya ilişkili olması; farklı gruptakilerin ise birbirinden farklı olması yada ilişkilerinin bulunmamasıdır. Aynı gruptakilerin birbirine benzeme oranı yada farklı gruptakilerin ise birbirinden farklı olma oranları kümelemenin ne kadar iyi olduğunun yada kümelerin birbirlerinden ne kadar kesinlikle ayrıldıklarının göstergesidir.

Bir çok uygulamada, küme kavramı net bir şekilde tanımlanmamıştır. Bir kümeyi ortaya koyan şeylerin neler olduğuna karar verme güçlüğünü daha iyi anlayabilmek için, Şekil-8.1’ i dikkate alalım. Bu şekil 20 değişik nokta ve bu noktaları kümelere ayırmak için üç farklı yol göstermektedir. İşaretlerin şekilleri küme üyeliklerini göstermektedir