Pandalar

Pandalar



“Python” birçok kütüphane içerir ve verileri analiz etmek veya işlemek istediğimizde bu “Python” kütüphanelerini kullanırız ve “pandalar” da onun kütüphanesidir. Veri bilimleri alanında kullanılan “pandalar” kütüphanesi aynı zamanda makine öğrenmesi etkinliklerinde de kullanılmaktadır. “Pandalar” DataFrame, verileri kaydetmemize yardımcı olur. “Pandalarda” veri gruplaması istediğimizde “qcut()” yöntemini kullanırız. Sürekli öznitelikleri kategorik özniteliklere dönüştürmek için “qcut()” yöntemi kullanılır. Bu “qcut()” yöntemine farklı türde sonuçlar elde etmek için farklı türde parametreler ekleyebiliriz. Bu öğretici tamamen “qcut()” yöntemiyle ilgilidir ve burada “qcut()” yöntemini tüm ayrıntılarıyla açıklayacağız. Bu derste size “pandalar”da “qcut()” fonksiyonu yardımıyla veri bindirmeyi nasıl yaptığımızı anlatacağız.”

Örnek # 01

Bu kodlarda “qcut()” yöntemini uygulayacağız ve bu kodları “Spyder” uygulamasında yapacağız. “Pandalar” ile çalışmamız gerektiğinde, fonksiyonlarına ancak “pandalar” kütüphanesini kodlarımıza aktardığımızda erişebiliriz. Önce “import” koyuyoruz sonra “pandas as pd” yazıyoruz. Şimdi “qcut()” yöntemini uygulamamız gerekiyor, bunun için burada DataFrame'i oluşturuyoruz. Sütunları olarak “R_ID, R_name ve R_age” içeren “Random_df” oluşturuyoruz ve ayrıca “R_ID” içerisine “R_17, R_21, R_24, R_29, R_31, R_34, R_44, R_46, R_50, R_51, R_55, R_61, R_73 ve R_81”. Ardından “R_name” sütununa “Theodore, Teddy, Noah, Leo, Ivy, Henry, Freddie, Evelyn, Ava, Willow, Theo, Oscar, Jacob ve Harper” ekliyoruz. Bundan sonra “R_age” sütununa “21, 33, 12, 43, 22, 7, 21, 51, 72, 19, 10, 9, 37 ve 40” ekliyoruz. Şimdi, 'Random_df' içeren 'print()'i kullanıyoruz ve bu, 'Random_df' DataFrame'in oluşturulmasına yardımcı olacaktır. DataFrame'i yeni oluşturduk ve henüz “qcut()” yöntemini uygulamıyoruz.








“Çalıştır” simgesi, kodların yürütülmesinde bize yardımcı olur. Bu 'çalıştır' simgesine bastığımızda, bu kodun sonucu 'Spyder' uygulamasının terminalinde görüntülenir. Bu örnekte yazdığımız kodun sonucu olarak “Random_df” DataFarme gösterilmektedir. Şimdi “qcut()” yöntemini uygulayacağız ve sonucunu da göstereceğiz.




Burada verileri bindiriyoruz. “R_age” sütununu bindiriyoruz ve veri gruplamada yardımcı olan “pandas” yöntemi olan “pd.qcut()” yöntemini yerleştiriyoruz. Bu yöntemde DataFrame'in adını ve ayrıca bu “qcut()” yöntemini uygulamak istediğimiz sütun adını ekliyoruz. Ayrıca “q” değerini “5” olarak belirledik ve “R_age” sütunundaki verileri beş eşit niceliğe bölmek için kullanılıyor. “print()”e “qcut()” yöntemini ekliyoruz, böylece o da binning verilerini terminalde gösterecek.




Burada, gruplamadan sonraki veriler görüntülenir ve “R_age” yi beş kuantile böler. Ayrıca, 'R_age' sütun verilerinin gruplandığı kategorileri de görüntüler. Kategorik seri, “R_age” kutularını temsil eder.






Bu kutular için etiketi de ayarlayabiliriz. Bu bin etiketlerini, yorumlanmalarını kolaylaştırmak için ekliyoruz. Bu binlerin etiketlerini eklediğimiz “Random_df” içerisine “R_age_qcut” sütununu ekliyoruz. Bunları etiketlemek için yine “pd.qcut()” yöntemini kullanıyoruz. İçine “küçük, çok az değil, vasat, yüksek ve en yüksek” etiketlerini ekliyoruz. Sonra tekrar “print()” içine “Random_df” koyduk.


Tüm kutular bu sonuçta etiketlenir ve sunulur. Etiketli kutuların gösterildiği bu DataFrame'de 'R_age_qcut' sütunu görüntülenir.



Örnek # 02

DataFrame oluşturmak için önce “3, 6, 8, 7, 2, 5, 1, 9, 4, 7 ve 8” olan “gradeleri” ekliyoruz. Ardından, “öğrenciler”deki öğrencilerin adlarını “Peter, Bromley, James, David, Allies, John, James, Samuel, William, Howard ve Alexander” ekliyoruz. Ardından “pd.DataFrame()” yöntemini eklediğimiz “Grades_df”yi oluşturuyoruz ve bu yöntemde sütun adı olarak görünecek olan “Std_name”yi koyuyoruz ve buna “öğrenci” değerlerini atayıyoruz. Daha sonra DataFrame'in kolon adını “Students_grades” olarak ayarlıyoruz ve burada da yukarıda oluşturduğumuz “grades” atadık. Bundan sonra, yazdırma için “Grades_df” eklediğimiz “print()” var.


Bu kodun sonucunda iki sütun içeren DataFrame görüntülenir. Şimdi, bu sütunun değerlerinin verilerini gruplamak için “Students_grades” sütununa “qcut()” yöntemini uygulayacağız.


Burada “Students_grades” sütununa “pd.qcut()” uyguladığımız yeni bir “grade” sütunu ekliyoruz ve ayrıca “q” değeri için “4” kullandık, bu yüzden kesecek. verileri dört eşit niceliğe böler. Daha sonra burada “q” değerlerine “0, .4, .8 ve 1” değerleri yerleştirerek bu nicelikleri belirliyoruz. Daha sonra bunu da gösteriyoruz. Şimdi bu binded verileri etiketliyoruz ve buraya eklediğimiz etiketler “D, C, A ve B” ve ayrıca “grade” sütununda saklanıyor.


Burada, gruplamadan sonraki veriler burada 'not' sütununda görüntülenir ve 'Students_grades' sütununun verilerini dört eşit niceliğe böler.


Bu çıktıda “qcut()” yöntemini uyguladıktan ve nicelikleri belirledikten sonra elde ettiğimiz DataFrame görüntülenir.


Artık bu binlere etiketler eklendikten sonra bu sonuçta “sınıf” sütununda işleniyor ve etiketleri bin değerlerine göre atadığını görebilirsiniz.

Örnek # 03

CSV dosyasının verilerine “qcut()” yöntemini de uygulayabiliriz. Bunun için öncelikle “read_csv()” yöntemi yardımıyla CSV dosyasının verilerini okuyoruz. “office2.csv” dosyasının verilerini okuyoruz ve ardından bu dosyanın verileri “Office_df” içerisine yerleştiriliyor. Bu yöntem, 'office2' dosyasının verilerini DataFrame'e dönüştürecek ve 'Office_df' içine kaydedecektir. Daha sonra “print()” içerisine “Office_df” koyarak bu verileri de gösteriyoruz. Bundan sonra “Units” sütununa “pd.qcut()” fonksiyonunu uyguladığımız “Units_qcut” adında yeni bir sütun ekliyoruz.

Ek olarak, “q” değişkeninin değerini “5” olarak ayarladık, bu da verileri beş eşit kuantile bölecek. Veriler 5 eşit niceliğe bölündükten sonra “Units_qcut” sütununda saklanır ve bu sütun da “Office_df”ye eklenir ve “Office_df” burada yeniden “print()” kullanılarak işlenir. Şimdi bu ikili verileri etiketliyoruz, 'qcut()' yöntemindeki 'Unit 1, Unit 2, Unit 3, Unit 4 ve Unit 5' etiketlerini ekliyor ve bunları 'Etiketler' sütununda da saklıyoruz. . Bu DataFrame'i de 'Labels' sütununun eklendiği hale getiriyoruz.


“office2.csv” dosyasını okuduktan sonra elde ettiğimiz veriler burada DataFrame şeklinde işleniyor. Ardından, “Birimler” sütununun ikili değerlerinin görüntülendiği “Birimler_qcut” sütunu eklenir. Bundan sonra, etiketleri bu ikili değerlere atayan “Etiketler” sütunu da eklenir. Bunların hepsi “pandalar”daki “qcut()” yöntemi kullanılarak yapılır.

Çözüm

“Pandalarda” verilerin gruplanmasına yardımcı olan “qcut()” yöntemini bu eğitimde ayrıntılı olarak açıkladık. “qcut()” yönteminde eklediğimiz niceliksel “q” değerine göre verinin binli olduğunu tartıştık ve etiketleri de bu binned dataya göre ayarladık. “qcut()” yöntemini araştırdık ve bu yöntemi DataFrame'in sütunlarına uyguladık ve ayrıca bu “qcut()” yöntemini CSV dosyalarını okuduktan sonra CSV dosyasının verilerine uyguladık. “qcut()” yönteminin sonucunu net bir şekilde açıklamak ve göstermek için bu eğitimdeki tüm kodların sonucunu sunduk.