Sarılma Yüz Transformatörlerinde Tokenizerler Nasıl Kullanılır?

Sarilma Yuz Transformatorlerinde Tokenizerler Nasil Kullanilir



Doğal Dil İşleme (NLP), verinin ham haliyle çalışır. Makine öğrenimi modelleri karmaşık veriler üzerinde eğitilir ancak ham verileri anlayamaz. Bu ham veri biçiminin kendisiyle ilişkili bazı sayısal değerlere sahip olması gerekir. Bu değer, kelimenin verilerdeki değerini ve önemini belirler ve hesaplamalar buna göre yapılır.

Bu makale, Hugging Face Transformers'ta Tokenizer'ların kullanımı hakkında adım adım bir kılavuz sağlar.

Tokenizer nedir?

Tokenizer, NLP'nin önemli bir kavramıdır ve asıl amacı ham metni sayılara çevirmektir. Bu amaca yönelik çeşitli teknikler ve metodolojiler mevcuttur. Ancak her tekniğin belirli bir amaca hizmet ettiğini belirtmekte fayda var.
Sarılma Yüz Transformatörlerinde Tokenizerler Nasıl Kullanılır?







Sarılma Yüz Transformatörlerinde Tokenizerler Nasıl Kullanılır?

Tokenizer kitaplığı, kullanılmadan ve işlevler içe aktarılmadan önce kurulmalıdır. Bundan sonra, AutoTokenizer'ı kullanarak bir model eğitin ve ardından tokenizasyon gerçekleştirmek için girişi sağlayın.



Hugging Face, aşağıda verilen üç ana Tokenizasyon kategorisini tanıtmaktadır:



  • Kelime Tabanlı Tokenizer
  • Karakter Tabanlı Tokenizer
  • Alt Kelime Tabanlı Tokenizer

Tokenizer'ları Transformers'ta kullanmak için adım adım bir kılavuz:





Adım 1: Transformers'ı Kurun
Transformatörleri kurmak için aşağıdaki komutta pip komutunu kullanın:

! pip düzenlemek transformatörler



2. Adım: Sınıfları İçe Aktarın
Transformatörlerden ithalat boru hattı , Ve AutoModelForSequenceClassification sınıflandırmayı gerçekleştirmek için kütüphane:

transformatörlerin ithalat hattından, AutoModelForSequenceClassification

Adım 3: Modeli İçe Aktarma
AutoModelForSequenceClassification ” tokenizasyon için Auto-Class'a ait bir yöntemdir. from_pretrained() yöntemi, model türüne göre doğru model sınıfını döndürmek için kullanılır.

Burada modelin ismini “ model adı ” değişken:

model adı = 'distilbert-baz-kaplamasız-ince ayarlı-sst-2-ingilizce'
eğitim öncesimodel =AutoModelForSequenceClassification.from_pretrained ( model adı )

Adım 4: AutoTokenizer'ı İçe Aktarın
“Tokenları oluşturmak için aşağıdaki komutu sağlayın” model adı ” argümanı olarak:

transformatörlerden AutoTokenizer'ı içe aktarın

oluşturulan jeton =AutoTokenizer.from_pretrained ( model adı )

Adım 5: Jeton Oluşturun
Şimdi bir cümle üzerinde belirteçler üreteceğiz “İyi yemekleri seviyorum” “ kullanarak oluşturulan jeton ” değişken:

kelimeler =belirteç oluştur ( 'İyi yemekleri seviyorum' )
Yazdır ( kelimeler )

Çıktı şu şekilde verilmiştir:

Yukarıdaki kod Google Şirketi burada verilmektedir.

Çözüm

Tokenizer'ları Hugging Face'te kullanmak için pip komutunu kullanarak kitaplığı yükleyin, AutoTokenizer'ı kullanarak bir model eğitin ve ardından tokenizasyon gerçekleştirmek için girişi sağlayın. Belirteçleştirmeyi kullanarak, cümlenin anlamını korumak için kelimelere, sıralanmalarına göre ağırlıklar atayın. Bu puan aynı zamanda analiz için değerlerini de belirler. Bu makale, Tokenizer'ların Hugging Face Transformers'ta nasıl kullanılacağına dair ayrıntılı bir kılavuzdur.