Sarılma Yüz Transformatörlerinde Tokenizerler Nasıl Kullanılır?

Doğal Dil İşleme (NLP), verinin ham haliyle çalışır. Makine öğrenimi modelleri karmaşık veriler üzerinde eğitilir ancak ham verileri anlayamaz. Bu ham veri biçiminin kendisiyle ilişkili bazı sayısal değerlere sahip olması gerekir. Bu değer, kelimenin verilerdeki değerini ve önemini belirler ve hesaplamalar buna göre yapılır.

Bu makale, Hugging Face Transformers'ta Tokenizer'ların kullanımı hakkında adım adım bir kılavuz sağlar.

Tokenizer nedir?

Tokenizer, NLP'nin önemli bir kavramıdır ve asıl amacı ham metni sayılara çevirmektir. Bu amaca yönelik çeşitli teknikler ve metodolojiler mevcuttur. Ancak her tekniğin belirli bir amaca hizmet ettiğini belirtmekte fayda var.
Sarılma Yüz Transformatörlerinde Tokenizerler Nasıl Kullanılır?

Sarılma Yüz Transformatörlerinde Tokenizerler Nasıl Kullanılır?

Tokenizer kitaplığı, kullanılmadan ve işlevler içe aktarılmadan önce kurulmalıdır. Bundan sonra, AutoTokenizer'ı kullanarak bir model eğitin ve ardından tokenizasyon gerçekleştirmek için girişi sağlayın.

Hugging Face, aşağıda verilen üç ana Tokenizasyon kategorisini tanıtmaktadır:

Kelime Tabanlı Tokenizer
Karakter Tabanlı Tokenizer
Alt Kelime Tabanlı Tokenizer

Tokenizer'ları Transformers'ta kullanmak için adım adım bir kılavuz:

Adım 1: Transformers'ı Kurun
Transformatörleri kurmak için aşağıdaki komutta pip komutunu kullanın:

! pip düzenlemek transformatörler

2. Adım: Sınıfları İçe Aktarın
Transformatörlerden ithalat boru hattı , Ve AutoModelForSequenceClassification sınıflandırmayı gerçekleştirmek için kütüphane:

transformatörlerin ithalat hattından, AutoModelForSequenceClassification

Adım 3: Modeli İçe Aktarma
“ AutoModelForSequenceClassification ” tokenizasyon için Auto-Class'a ait bir yöntemdir. from_pretrained() yöntemi, model türüne göre doğru model sınıfını döndürmek için kullanılır.

Burada modelin ismini “ model adı ” değişken:

model adı = 'distilbert-baz-kaplamasız-ince ayarlı-sst-2-ingilizce'
eğitim öncesimodel =AutoModelForSequenceClassification.from_pretrained ( model adı )

Adım 4: AutoTokenizer'ı İçe Aktarın
“Tokenları oluşturmak için aşağıdaki komutu sağlayın” model adı ” argümanı olarak:

transformatörlerden AutoTokenizer'ı içe aktarın

oluşturulan jeton =AutoTokenizer.from_pretrained ( model adı )

Adım 5: Jeton Oluşturun
Şimdi bir cümle üzerinde belirteçler üreteceğiz “İyi yemekleri seviyorum” “ kullanarak oluşturulan jeton ” değişken:

kelimeler =belirteç oluştur ( 'İyi yemekleri seviyorum' )
Yazdır ( kelimeler )

Çıktı şu şekilde verilmiştir:

Yukarıdaki kod Google Şirketi burada verilmektedir.

Çözüm

Tokenizer'ları Hugging Face'te kullanmak için pip komutunu kullanarak kitaplığı yükleyin, AutoTokenizer'ı kullanarak bir model eğitin ve ardından tokenizasyon gerçekleştirmek için girişi sağlayın. Belirteçleştirmeyi kullanarak, cümlenin anlamını korumak için kelimelere, sıralanmalarına göre ağırlıklar atayın. Bu puan aynı zamanda analiz için değerlerini de belirler. Bu makale, Tokenizer'ların Hugging Face Transformers'ta nasıl kullanılacağına dair ayrıntılı bir kılavuzdur.

Sarılma Yüz Transformatörlerinde Tokenizerler Nasıl Kullanılır?

Tokenizer nedir?

Sarılma Yüz Transformatörlerinde Tokenizerler Nasıl Kullanılır?

Çözüm

Kategori

Popüler Mesajlar

Dockerfile Kullanarak Java Uygulaması İçin Görüntü Oluşturma

Sunucu Üzerinden SMS Olarak Gönderilen Android Ne Anlama Geliyor?

JavaScript Kullanarak Metin Kutusuna Değer Atama

C++ FILE makrosu

Kubernetes Önbelleği Nasıl Temizlenir

Kubectl Liste Görüntüleri

Linux'ta deb-get Komutu ile Paket Kurulumu

AWS EBS nedir? | Özellikler ve Kullanım

BigQuery ve Athena

PostgreSQL'de Dizelerin Alt Dizilerini Oluşturun

Tablo Döndürmek için PostgreSQL İşlevi

Git Sürüm Kontrolünü Kullanarak Yalnızca Bir Dosyanın İzinlerini Güncelleme ve Taahhüt Etme

Java Mirasında Alt Sınıf ve Üst Sınıf Nedir?

NodeJ'lerde Dosya Yollarında Nasıl Gezinilir?

Bash'te awk Komutu Nasıl Kullanılır?

Kubernetes Ortamında HAProxy'yi Giriş Denetleyicisi Olarak Kullanma

Kali Linux Önyüklenebilir USB Nasıl Yapılır

Get-ChildItem: Dosyaları, Kayıt Defterini ve Sertifikaları Listeleme

Tailwind'in Kesme Noktaları ve Medya Sorguları için Min. ve Maksimum Yükseklik Nasıl Ayarlanır?

Vim Marks Kılavuzu