Hugging Face'te Veri Kümeleri Nasıl Birleştirilir

Hugging Face Te Veri Kumeleri Nasil Birlestirilir



Hugging Face'in 'veri kümeleri' kitaplığı, doğal dil işleme görevleri için veri kümeleriyle çalışmanın ve veri kümelerini işlemenin uygun bir yolunu sağlar. Kütüphane tarafından sunulan kullanışlı işlevlerden biri, birden fazla veri kümesini tek bir veri kümesinde birleştirmenize olanak tanıyan concatenate_datasets() işlevidir. Aşağıda concatenate_datasets() işlevine ve nasıl kullanılacağına ilişkin kısa bir genel bakış yer almaktadır.

concatenate_datasets()

Tanım:

Hugging Face'in 'veri kümeleri' kitaplığı concatenate_datasets() işlevini sağlar. Birden fazla veri kümesini belirli bir eksen boyunca tek bir veri kümesinde birleştirerek birleştirmek için kullanılır. Bu işlev, özellikle aynı yapıyı paylaşan birden fazla veri kümeniz varsa ve bunları daha ileri işleme ve analiz için birleşik bir veri kümesinde birleştirmek istiyorsanız kullanışlıdır.







Sözdizimi:



itibaren veri kümeleri içe aktarmak concatenate_datasets

birleştirilmiş_veri kümesi = concatenate_datasets ( veri kümeleri , eksen = 0 , bilgi = Hiçbiri )

Parametreler:

veri kümeleri (Veri Kümesi listesi): Birleştirmek istediğiniz veri kümelerinin listesi. Bu veri kümeleri uyumlu özelliklere sahip olmalıdır; bu, aynı şemaya, sütun adlarına ve veri türlerine sahip oldukları anlamına gelir.



eksen (int, isteğe bağlı, varsayılan=0): Birleştirmenin gerçekleştirileceği eksen. Çoğu NLP veri kümesi için varsayılan değer olan 0 kullanılır; bu, veri kümelerinin dikey olarak birleştirildiği anlamına gelir. Ekseni=1 olarak ayarlarsanız veri kümeleri, özellik olarak farklı sütunlara sahip oldukları varsayılarak yatay olarak birleştirilir.





bilgi (datasets.DatasetInfo, isteğe bağlı): Birleştirilmiş veri kümesiyle ilgili bilgiler. Sağlanmazsa bilgi, listedeki ilk veri kümesinden çıkarılır.

İadeler:

birleştirilmiş_veri kümesi (Veri Kümesi): Tüm giriş veri kümelerinin birleştirilmesinden sonra ortaya çıkan veri kümesi.



Örnek:

# Adım 1: Veri kümesi kitaplığını yükleyin

# Pip kullanarak kurabilirsiniz:

# !pip kurulum veri kümeleri

# Adım 2: Gerekli kitaplıkları içe aktarın

itibaren veri kümeleri içe aktarmak load_dataset , concatenate_datasets

# Adım 3: IMDb film inceleme veri kümelerini yükleyin

# Biri olumlu eleştiriler için olmak üzere iki IMDb veri seti kullanacağız

#ve olumsuz yorumlar için bir tane daha.

# 2500 olumlu yorum yükle

veri kümesi_pos = load_dataset ( 'imdb' , bölmek = 'tren[:2500]' )

# 2500 olumsuz yorum yükle

veri kümesi_neg = load_dataset ( 'imdb' , bölmek = 'tren[-2500:]' )

# Adım 4: Veri kümelerini birleştirin

# Her iki veri kümesini de eksen=0 boyunca birleştiriyoruz.

aynı şema ( aynı özellikler ) .

birleştirilmiş_veri kümesi = concatenate_datasets ( [ veri kümesi_pos , veri kümesi_neg ] )

# Adım 5: Birleştirilmiş veri kümesini analiz edin

# Kolaylık olması açısından pozitif ve negatif sayısını sayalım

Birleştirilmiş veri kümesinde # inceleme.

num_positive_reviews = toplam ( 1 için etiket içinde

birleştirilmiş_veri kümesi [ 'etiket' ] eğer etiket == 1 )

num_negative_reviews = toplam ( 1 için etiket içinde

birleştirilmiş_veri kümesi [ 'etiket' ] eğer etiket == 0 )

# Adım 6: Sonuçları görüntüleyin

Yazdır ( 'Olumlu yorumların sayısı:' , num_positive_reviews )

Yazdır ( 'Olumsuz yorumların sayısı:' , num_negative_reviews )

# Adım 7: Birleştirilmiş veri kümesinden birkaç örnek inceleme yazdırın

Yazdır ( ' \N Bazı örnek incelemeler:' )

için Ben içinde menzil ( 5 ) :

Yazdır ( F '{i + 1}'i inceleyin: {concatenate_dataset['text'][i]}' )

Çıktı:

Aşağıda Hugging Face'in iki IMDb film inceleme veri kümesini birleştiren 'veri kümeleri' kitaplık programının açıklaması yer almaktadır. Bu, programın amacını, kullanımını ve kodda yer alan adımları açıklar.

Koddaki her adımın daha ayrıntılı bir açıklamasını verelim:

# Adım 1: Gerekli Kitaplıkları İçe Aktarın

itibaren veri kümeleri içe aktarmak load_dataset , concatenate_datasets

Bu adımda program için gerekli kütüphaneleri import ediyoruz. IMDb film inceleme veri kümelerini yüklemek için “load_dataset” işlevine, bunları daha sonra birleştirmek için “concatenate_datasets” işlevine ihtiyacımız var.

# Adım 2: IMDb Film İnceleme Veri Kümelerini Yükleyin

# 2500 olumlu yorum yükle

veri kümesi_pos = load_dataset ( 'imdb' , bölmek = 'tren[:2500]' )

# 2500 olumsuz yorum yükle

veri kümesi_neg = load_dataset ( 'imdb' , bölmek = 'tren[-2500:]' )

Burada IMDb veri setinin iki alt kümesini getirmek için “load_dataset” fonksiyonunu kullanıyoruz. 'dataset_pos' 2500 olumlu yoruma sahipken 'dataset_neg' 2500 olumsuz yorum içeriyor. Tüm veri kümesinin bir alt kümesini seçmemize olanak tanıyan, yüklenecek örnek aralığını belirtmek için split parametresini kullanırız.

# Adım 3: Veri Kümelerini Birleştirin

birleştirilmiş_veri kümesi = concatenate_datasets ( [ veri kümesi_pos , veri kümesi_neg ] )

Bu adımda, IMDb veri kümesinin iki alt kümesini 'concatenated_dataset' adı verilen tek bir veri kümesinde birleştiriyoruz. “concatenate_datasets” fonksiyonunu kullanıyoruz ve birleştirilecek iki veri setini içeren bir liste ile aktarıyoruz. Her iki veri kümesi de aynı özelliklere sahip olduğundan bunları eksen=0 boyunca birleştiriyoruz, bu da satırların birbirinin üzerine yığıldığı anlamına geliyor.

# Adım 4: Birleştirilmiş Veri Kümesini Analiz Edin

num_positive_reviews = toplam ( 1 için etiket içinde

birleştirilmiş_veri kümesi [ 'etiket' ] eğer etiket == 1 )

num_negative_reviews = toplam ( 1 için etiket içinde

birleştirilmiş_veri kümesi [ 'etiket' ] eğer etiket == 0 )

Burada, birleştirilmiş veri kümesinin basit bir analizini gerçekleştiriyoruz. Olumlu ve olumsuz incelemelerin sayısını saymak için 'toplam' işleviyle birlikte liste kavramalarını kullanırız. aracılığıyla yineliyoruz 'concatenate_dataset'in label' sütununu kullanın ve pozitif bir etiket (1) veya negatif bir etiket (0) ile karşılaştığımızda sayıları artırın.

# Adım 5: Sonuçları Görüntüleyin

Yazdır ( 'Olumlu yorumların sayısı:' , num_positive_reviews )

Yazdır ( 'Olumsuz yorumların sayısı:' , num_negative_reviews )

Bu adımda, analizimizin sonuçlarını (birleştirilmiş veri kümesindeki olumlu ve olumsuz incelemelerin sayısını) yazdırıyoruz.

# Adım 6: Birkaç Örnek İncelemeyi Yazdırın

Yazdır ( ' \N Bazı örnek incelemeler:' )

için Ben içinde menzil ( 5 ) :

Yazdır ( F '{i + 1}'i inceleyin: {concatenate_dataset['text'][i]}' )

Son olarak, birleştirilmiş veri kümesinden birkaç örnek incelemeyi sergiliyoruz. Veri kümesindeki ilk beş örnek arasında döngü yapıyoruz ve metin içeriklerini “metin” sütununu kullanarak yazdırıyoruz.

Bu kod, IMDb film inceleme veri kümelerini yüklemek, birleştirmek ve analiz etmek için Hugging Face'in 'veri kümeleri' kitaplığını kullanmanın basit bir örneğini gösterir. Kitaplığın NLP veri kümesi işlemeyi kolaylaştırma yeteneğini vurguluyor ve daha karmaşık doğal dil işleme modelleri ve uygulamaları oluşturma potansiyelini sergiliyor.

Çözüm

Hugging Face'in 'veri kümeleri' kitaplığını kullanan Python programı, iki IMDb film inceleme veri kümesinin birleşimini başarıyla gösteriyor. Program, olumlu ve olumsuz incelemelerin alt kümelerini yükleyerek concatenate_datasets() işlevini kullanarak bunları tek bir veri kümesinde birleştirir. Daha sonra birleştirilmiş veri kümesindeki olumlu ve olumsuz yorumların sayısını sayarak basit bir analiz yapar.

“Veri kümeleri” kütüphanesi, NLP veri kümelerinin işlenmesi ve işlenmesi sürecini basitleştirerek onu araştırmacılar, geliştiriciler ve NLP uygulayıcıları için güçlü bir araç haline getirir. Kullanıcı dostu arayüzü ve kapsamlı işlevleriyle kütüphane, zahmetsiz bir veri ön işleme, araştırma ve dönüştürme olanağı sağlar. Bu belgede gösterilen program, veri birleştirme ve analiz görevlerini kolaylaştırmak için kütüphaneden nasıl yararlanılabileceğine dair pratik bir örnek olarak hizmet vermektedir.

Gerçek hayattaki senaryolarda bu program; duygu analizi, metin sınıflandırma ve dil modelleme gibi daha karmaşık doğal dil işleme görevlerine temel oluşturabilir. Araştırmacılar ve geliştiriciler, 'veri kümeleri' kitaplığını kullanarak büyük ölçekli veri kümelerini verimli bir şekilde yönetebilir, deneyleri kolaylaştırabilir ve en son teknolojiye sahip NLP modellerinin gelişimini hızlandırabilir. Genel olarak, Hugging Face 'veri kümeleri' kütüphanesi, doğal dil işleme ve anlama alanındaki ilerlemelerin takibinde önemli bir varlık olarak duruyor.