Türkçe metinlerde duygu analizi için yapay zeka çeviri araçlarının etkisi
Künye
Öncü M. (2024). Türkçe metinlerde duygu analizi için yapay zeka çeviri araçlarının etkisi .(Yüksek Lisans Tezi). İskenderun Teknik Üniversitesi / Lisansüstü Eğitim Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı / Bilgisayar Mühendisliği Bilim Dalı, Hatay.Özet
Duygu analizinde, belirli bir görev için en verimli modeli belirlemek genellikle zordur.
Zaman, maliyet ve başarım gibi kriterler model seçiminde belirleyici rol oynar. Bu nedenle
modellerin performanslarının karşılaştırılması önem taşır. Ön eğitimli dil modellerinin
bazıları sadece İngilizce olarak eğitilmiştir ve bu modeller ile Türkçe metinler üzerinde
duygu analizi yapabilmek için çeviri yapılması gerekmektedir. Hatalı veya eksik çeviri ile
İngilizce eğitilmiş modellerde doğru başarımlar elde edilemeyeceğinden çeviri aşaması
oldukça önemlidir. Bu çalışmada GPT, Google Translate ve Amazon Translate servislerinin
İngilizce çeviri performansları gözlemlenmiştir. Metinlere Türkçe→İngilizce→Türkçe
biçiminde döngüsel çeviri işlemleri uygulanmıştır. Orijinal ve çeviri ile elde edilmiş Türkçe
metinlerin vektör temsilleri elde edilmiş, aralarındaki Levenshtein uzaklığı, Kosinüs
Benzerliği ve semantik benzerlik oranları elde edilmiştir. Bu değerlerin ortalamaları ile
başarımları hesaplanarak zaman ve maliyet gibi kriterlerde göz önüne alınmıştır. Google
Translate, yüksek semantik benzerlik oranı, ücretsiz ve hızlı olduğundan İngilizce
modellerin performans değerlendirmesi için veri setlerinin çeviri yöntemi olarak
kullanılmıştır. Pozitif (Olumlu), Negatif (Olumsuz) veya Nötr (Tarafsız) olarak etiketlenmiş
veri setiyle Türkçe ve İngilizce olarak yapılan duygu analizi model performans
değerlendirmelerinde, online API ile erişim sağlanabilen GPT ve Amazon Comprehend
servisleri, ön eğitimli modeller (pre-trained models) olan Google BERT ve Facebook
RoBERTa modellerinin gerisinde kalmıştır. En başarılı modelin Türkçe için eğitilmiş
Google BERT modeli olduğu sonucu ortaya çıkmıştır. İyi eğitilmiş Türkçe modeller,
İngilizce modellere göre daha başarılıdır. In sentiment analysis, it is often difficult to determine the most efficient model for a
particular task. Criteria such as time, cost and performance play a decisive role in model
selection. Therefore, it is important to compare the performances of the models. Some of the
pre-trained language models were trained only in English and translation is required to
perform sentiment analysis on Turkish texts with these models. Since correct performances
cannot be achieved in models trained in English with incorrect or incomplete translations,
the translation phase is very important. In this study, the English translation performances
of GPT, Google Translate and Amazon Translate services were observed. Cyclic translation
operations were applied to the texts in the form of Turkish→English→Turkish. Vector
representations of the original and translated Turkish texts were obtained, and the
Levenshtein distance, Cosine Similarity and semantic similarity rates between them were
obtained. The averages of these values and their performances were calculated and criteria
such as time and cost were taken into account. Google Translate was used as the translation
method of the data sets for the performance evaluation of English models due to its high
semantic similarity rate, free and fast. In the sentiment analysis model performance
evaluations conducted in Turkish and English with the data set labeled as Positive, Negative
or Neutral, GPT and Amazon Comprehend services, which can be accessed via online API,
fell behind the pre-trained models Google BERT and Facebook RoBERTa. It was concluded
that the most successful model was the Google BERT model trained for Turkish. Welltrained Turkish models are more successful than English models