Pandalar Grup Ortalaması

Pandalar Grup Ortalamasi



İki veya daha fazla değeri topladığımızda ve bunların toplamı, birlikte eklenen toplam değer sayısına bölündüğünde, sonuç bir ortalamadır. Pandas Mean, belirli bir eksen boyunca verilerin veya değerin ortalamasını döndürür. Bir veri çerçevesine ortalama() yöntemi uygulanırsa, bir eksen boyunca ortalaması olan bir seri pandalar tarafından döndürülür. Pandalar, bir dizide 'mean()' kullanılıyorsa sayısal bir değer (tek sayı) döndürür. Kategori grupları oluşturulduktan sonra fonksiyonlar kategorilere uygulanabilir. Basit bir fikir ama veri biliminde sıklıkla uygulanan oldukça etkili bir tekniktir. Her grup için verilerin bir özetini oluşturmamıza, gruba özgü değişiklikleri uygulamamıza ve veri filtrelemesi gerçekleştirmemize olanak tanır. groupby() fonksiyonu ile nesne bölünebilir, bir fonksiyon uygulanabilir ve daha sonra ürünler birleştirilebilir. Bununla büyük veri setleri gruplandırılabilir ve gruplar üzerinde işlemler yapılabilir.

Pandalarda groupby.mean() Yöntemi Nasıl Kullanılır?

Bir veri çerçevesinin ortalamasını veya bir veri çerçevesinin belirli sütunlarının ortalamasını hesaplamak için groupby.mean() işlevini kullanabiliriz. Aşağıdaki örneklerde nasıl kullanılacağını göstereceğiz.







Örnek # 01: Tek Bir Sütunun Verilerini Gruplandırarak Tek Bir Tam Sayılı Sütunun Ortalamasını Belirleyin

pd.DataFrame() işlevini kullanarak, önce bir veri çerçevesi oluşturacağız, böylece veri çerçevesinin sütun veya sütunlarındaki verileri gruplara ayırabilir ve ardından ortalama değerlerini bulabiliriz. Veri çerçevesini oluşturmadan önce, numpy kitaplığı ile birlikte pandas modülünü içe aktarmalıyız.





Görüldüğü gibi dataframe'imizi pandas sözlüğünü kullanarak oluşturduk. df veri çerçevemizde 3 sütun var, yani 'öğeler', 'üretici' ve 'miktar'. 'Öğeler' sütununda değerleri ('gömlek', 'kravat', 'pantolon', 'gömlek', 'kravat', 'pantolon', 'gömlek', 'pantolon', 'pantolon', ' tie'), değerleri içeren 'üretici' ve 'miktar' sütunları ('italya', 'fransa', 'çin', 'fransa', 'çin', 'italya', 'çin', 'italya', 'fransa', 'çin') ve (13, 16, 21, 32, 26, 41, 24, 42, 12, 15). Üretici sütunundaki değerleri gruplandıralım ve her bir farklı üretici için ortalama miktar değerini belirleyelim.





Üretici değeri olan 'çin' ortalama miktar değeri 21.5, 'fransa' için ortalama miktar değeri 20.0 ve 'İtalya' için ortalama miktar değeri 32,0'dir. Ayrıca groupby.mean() işleviyle reset_index işlevini kullanarak çıktıya bir dizin belirtebiliriz.



Örnek # 02: Tek Bir Sütunun Verilerini Gruplandırarak Tek Bir Kayan Sütunun Ortalamasını Bulun

Verileri grupladıktan sonra tamsayı sütununun ortalamasını nasıl bulabileceğimizi gördük. Şimdi float gibi başka bir veri tipi sütunu deneyelim. pd.DataFrame() işlevi kullanılarak kayan değerlere sahip en az bir sütun içeren bir veri çerçevesi oluşturulacaktır.

pd.DataFrame() içine bir sözlük koyarak, üç sütunlu bir veri çerçevesi oluşturduk. 'Ad' sütunu bazı rastgele oyuncuların adlarını saklar ('Sam', 'Jay', 'Leo', 'Mike', 'Will', 'Billy', 'Jhonny', 'Lara', 'Hanna', 'Tony'), her oyuncunun ait olduğu takımı temsil eden 'takım' sütunu ('A', 'A', 'B',  'A', 'B', 'A', 'C', 'B' ', 'C', 'C') ve 'yükseklik' sütunu, her oyuncunun yüksekliklerini bir kayan nokta değeri (5.6, 5.4, 6.3, 5.2, 5.5, 6.4, 5.6, 5.8, 6.0, 5.2) olarak saklar. Verileri 'takım' sütununda gruplayalım ve her bir farklı 'takım' değeri için ortalama yükseklik değerini belirleyelim.

A takımı oyuncularının ortalama boy değerinin 5,65 olduğunu, B ve C takımlarındaki oyuncuların ortalama boylarının ise sırasıyla 5,866 ve 5,6 olduğunu görebilirsiniz.

Örnek # 03: groupby.mean() İşlevini Kullanarak Birden Çok Sütunun Ortalamasını Belirleyin

Önceki örneklerde, tek bir sütunun ortalamasını belirledik. Ancak, her grup için çok sayıda sütunun ortalaması da belirlenebilir. Pandaları ve numpy modüllerini import ettikten sonra birden fazla numerik kolonu olan bir dataframe oluşturalım.

Yeni oluşturulan veri çerçevesinde, 'ad', 'puan' ve 'eşleşmeler' etiketli üç sütun vardır. Bir dize olarak veri değerlerine sahip sütun adları ('Ron', 'Jim', 'Dany', 'Jim', 'Jim', 'Dany', 'Ron', 'Ron', 'Dany', 'Jim' ), 'skor' ve 'eşleşmeler' ise (3, 4, 2, 4, 1, 5, 2, 3, 1, 2) ve (2, 3, 1, 2, 1, 3 gibi sayısal verilerden oluşur. , 4, 1, 2, 1). Şimdi 'name' sütununun verilerini grupladıktan sonra 'puan' ve 'eşleşmeler' sütununun ortalamasını bulalım. Bunun için groupby.mean() işlevi kullanılacaktır.

'Dany' grubunun 2,00 maçta ortalama 2,66 puan aldığı fark edilebilir. Jim grubunun ortalama puanı 2.75 ve oynanan maçların ortalama değeri 1.75'tir. Ron grubunun ortalama skor değeri 2,66 iken, oynanan maçların ortalama değeri 2,33'tür.

Nesneye göre bir kategori grubunun ortalaması da agg() yöntemi kullanılarak hesaplanabilir. Ortalamayı agg() işlevine bir argüman olarak sağlayacağız. Belirli bir eksen boyunca tekli veya çoklu işlemleri kullanarak toplama yapmak için agg() işlevini kullanabiliriz.

Çıktı öncekiyle aynı.

Örnek # 04: Birden Çok Sütunu Gruplandırarak Belirli Sütunların Ortalamasını Belirleyin

Örnek 1, 2 ve 3'te, tek bir sütunun değerlerini veya verilerini grupladık. Şimdi groupby() fonksiyonu içindeki sütun etiketlerinin listesini kullanarak birden çok sütunu gruplayacağız ve ardından her bir grup için ortalama değeri bulacağız. Veri çerçevesini oluşturmak için bir girdi olarak pd.Dataframe() işlevinin içine bir 'd' sözlüğü geçirilecektir.

Gerekli dataframe'i oluşturduk. 'Spor' sütunu bazı sporların ('Badminton', 'futbol', 'tenis', 'basketbol', 'futbol', 'tenis', 'basketbol', 'futbol', 'Badminton', ' basketbol', 'basketbol', 'tenis'), ülkelerin isimleri ('Çin', 'Rusya', 'İtalya', 'İspanya', 'Rusya', 'İtalya', 'Çin', 'İtalya', ' İspanya', 'Çin', 'Rusya', 'İtalya') 'ülke' sütununda saklanır. Oysa 'galibiyet' sütununda her ülkenin her sporda kazandığı maç sayısını kaydettik (13, 10, 6, 7, 10, 12, 7, 11, 8, 13, 11, 6). 'Spor' ve 'ülke' sütunlarını gruplayarak 'kazan' sütun değerlerinin ortalamasını bulmak için groupby.mean() işlevini kullanalım.

İşlev, ülkedeki her spor için 'kazan' sütun değerlerinin ortalamalarını başarıyla belirledi. Gruplandırılmış veri çerçevesi, aynı zamanda yeni bir dizin oluşturan ve ona uygun bir veri çerçevesi yapısı veren reset_index() işlevi kullanılarak sıfırlanabilir.

Her veri çerçevesinin satırı için bir dizin eklenir. Sonuçları çekici bir tabloda düzenlemek için pivot() işlevini de kullanabiliriz.

Çözüm

Bu öğreticide, sayıların ortalamasının veya ortalamasının ne olduğunu ve bir veri çerçevesinin sütununu veya sütunlarını grupladıktan sonra belirli bir sütunun (bir veya daha fazla) ortalamasının nasıl bulunacağını tartıştık. Bu makalede, tek bir sütunun verilerini gruplayarak tek bir tamsayı veya kayan noktalı sütunun ortalamasını nasıl belirleyeceğinizi öğretmek için birkaç örnek uyguladık; groupby.mean() işlevi kullanılarak birden çok sütunun ortalamasının nasıl belirleneceği; ve ayrıca birden çok sütunu gruplayarak belirli sütunların ortalamasının nasıl belirleneceği.