Yapay zeka yöntemlerinin doğal dil işlemede etkin kullanılması
Künye
Atayolu, Y. (2024). Yapay zeka yöntemlerinin doğal dil işlemede etkin kullanılması. (Yüksek Lisans Tezi). İskenderun Teknik Üniversitesi / Lisansüstü Eğitim Enstitüsü / Bilgisayar Mühendisliği Ana Bilim Dalı, Hatay.Özet
Dilin soyut ve dinamik doğası, dili yapay zekâ ile modellememizde belli sınırlılıklara yol
açmaktadır. Bu sınırlılıklarını en aza indirgemek için dili ve bağlamını çok boyutlu
yapılar olarak ele almak ve modellemede veriye özgü yöntem stratejisi belirlemek
gereklidir. Bu tez çalışmasında, yapay zekâların içerik üretme performansı, içeriklerin
analizi ve içeriklerin sınıflandırılması ele alınmıştır. Yapay zekaların performansı eğitim
bilimleri kapsamında ele alınmış ve içerik üretme kapasitelerinin etkili istem tasarımı ile
nasıl
geliştirilebileceği
üzerine odaklanılmıştır. Eğitim bilimlerinde Bloom
Taksonomisine uygun olarak soru tasarımı gerçekleştirilmiş ve taksonomiye uygun soru
hazırlamada rehberlik eden referans noktalar özenle dikkate alınmıştır. İçeriklerin analizi
için Sinema filmlerine ait içerikler film puanı ve türünün makine öğrenimi modelleriyle
tahmini için kullanılmıştır. Bu bağlamda öznitelik seçimine ve girdi oluşturulmasına
değinilmiş ve belirli özniteliklerle film puanı için regresyon modelleriyle tahmin
yapılmıştır. film özetlerini içeren tür sınıflandırılması ele alınmıştır. Günümüz önemli
mental sağlık sorunları arasında olan anksiyete, depresyon ve intihar eğilimlerinin ilgili
sosyal medya gönderileri ile belirlenmesi mümkün hale gelmiştir. Sosyal medya
gönderilerinin sınıflandırması için metin ön işleme tekniklerinin ve hiper parametre
yöntemlerin başarıma etkileri ele alınmıştır. Diğer taraftan metin vektörel temsilleri için
farklı yöntemler ele alınmış ve sınıflandırma performansı incelenmiştir. Sadece
tekrarlayan ifadeleri kaldırarak uygulanan ön işlemden sonra yapılan Roberta modeli ile
%87,2 başarım elde edilmiştir. Bi-LSTM modeli eğitiminde ön eğitimli Roberta,
word2vec ve TF-IDF vektörlerinin birleştirilmesiyle oluşturulmuş hibrit vektör
sınıflandırma başarımını %13 kadar artırdığı görülmüştür. Yapay zekâ yöntemlerinin
doğal dil işlemede etkin kullanılması için üç farklı problem farklı yöntem ve tekniklerinin
değerlendirilmesi yapılmıştır. Yapılan uygulamalarda görüldüğü üzere gerek metin
içeriklerinin çeşitliliği gerek önişlemlerin sırası ve yapılması ve gerekse hiper parametre
yöntemlerinin uygulanması başarımı ciddi şekilde etkilediği görülmüştür. The abstract and dynamic nature of language lead to certain limitations in modelling
language with artificial intelligence. To minimize these limitations, it is essential to
approach language and context as multidimensional structures and adopt data-specific
methodological strategies for modelling. This thesis focuses on the content generation
performance of artificial intelligence systems, the analysis of content, and content
classification. The performance of artificial intelligence was evaluated within the scope
of educational sciences, focusing on how their content generation capacities can be
enhanced through effective prompt design. Questions were designed in accordance with
Bloom's Taxonomy in educational sciences, and reference points guiding the preparation
of taxonomy-compliant questions were carefully considered. For content analysis, the
content of films was used to predict movie ratings and genres through machine learning
models. Therefore, feature selection and input formation were addressed, and regression
models were applied to predict movie ratings using selected features. Additionally, genre
classification based on film summaries was explored. Contemporary mental health issues
such as anxiety, depression, and suicidal tendencies have become identifiable through
related social media posts.The impact of text preprocessing techniques and
hyperparameter optimization methods on classification performance was examined.
Furthermore, different methods for text vector representations were analyzed, and
classification performance was evaluated. A Roberta model, applied after preprocessing
by removing repetitive expressions, achieved 87.2% accuracy. It was observed that
hybrid vector classification, created by combining pre-trained Roberta, word2vec, and
TF-IDF vectors in training the Bi-LSTM model, increased classification accuracy by
approximately 13%. Three different problems were evaluated using various methods and
techniques for the effective use of artificial intelligence methods in natural language
processing. The applications revealed that the diversity of textual content, the sequence
and execution of preprocessing steps, and the implementation of hyperparameter methods
significantly influence performance.