Bu makale, Hugging Face Transformers'ta Tokenizer'ların kullanımı hakkında adım adım bir kılavuz sağlar.
Tokenizer nedir?
Tokenizer, NLP'nin önemli bir kavramıdır ve asıl amacı ham metni sayılara çevirmektir. Bu amaca yönelik çeşitli teknikler ve metodolojiler mevcuttur. Ancak her tekniğin belirli bir amaca hizmet ettiğini belirtmekte fayda var.
Sarılma Yüz Transformatörlerinde Tokenizerler Nasıl Kullanılır?
Sarılma Yüz Transformatörlerinde Tokenizerler Nasıl Kullanılır?
Tokenizer kitaplığı, kullanılmadan ve işlevler içe aktarılmadan önce kurulmalıdır. Bundan sonra, AutoTokenizer'ı kullanarak bir model eğitin ve ardından tokenizasyon gerçekleştirmek için girişi sağlayın.
Hugging Face, aşağıda verilen üç ana Tokenizasyon kategorisini tanıtmaktadır:
- Kelime Tabanlı Tokenizer
- Karakter Tabanlı Tokenizer
- Alt Kelime Tabanlı Tokenizer
Tokenizer'ları Transformers'ta kullanmak için adım adım bir kılavuz:
Adım 1: Transformers'ı Kurun
Transformatörleri kurmak için aşağıdaki komutta pip komutunu kullanın:
2. Adım: Sınıfları İçe Aktarın
Transformatörlerden ithalat boru hattı , Ve AutoModelForSequenceClassification sınıflandırmayı gerçekleştirmek için kütüphane:
Adım 3: Modeli İçe Aktarma
“ AutoModelForSequenceClassification ” tokenizasyon için Auto-Class'a ait bir yöntemdir. from_pretrained() yöntemi, model türüne göre doğru model sınıfını döndürmek için kullanılır.
Burada modelin ismini “ model adı ” değişken:
model adı = 'distilbert-baz-kaplamasız-ince ayarlı-sst-2-ingilizce'eğitim öncesimodel =AutoModelForSequenceClassification.from_pretrained ( model adı )
Adım 4: AutoTokenizer'ı İçe Aktarın
“Tokenları oluşturmak için aşağıdaki komutu sağlayın” model adı ” argümanı olarak:
oluşturulan jeton =AutoTokenizer.from_pretrained ( model adı )
Adım 5: Jeton Oluşturun
Şimdi bir cümle üzerinde belirteçler üreteceğiz “İyi yemekleri seviyorum” “ kullanarak oluşturulan jeton ” değişken:
Yazdır ( kelimeler )
Çıktı şu şekilde verilmiştir:
Yukarıdaki kod Google Şirketi burada verilmektedir.
Çözüm
Tokenizer'ları Hugging Face'te kullanmak için pip komutunu kullanarak kitaplığı yükleyin, AutoTokenizer'ı kullanarak bir model eğitin ve ardından tokenizasyon gerçekleştirmek için girişi sağlayın. Belirteçleştirmeyi kullanarak, cümlenin anlamını korumak için kelimelere, sıralanmalarına göre ağırlıklar atayın. Bu puan aynı zamanda analiz için değerlerini de belirler. Bu makale, Tokenizer'ların Hugging Face Transformers'ta nasıl kullanılacağına dair ayrıntılı bir kılavuzdur.