Yayın:
Yapay zeka tekniklerinin hukuk alanında uygulanması

Küçük Resim

Akademik Birimler

Kurum Yazarları

Yazarlar

Okursoy, Mustafa Emirkan

Danışman

İnkaya, Tülin
Karabel, Emine Gökçe

Dil

Yayıncı:

Bursa Uludağ Üniversitesi

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Özet

Yapay zekâ ve doğal dil işleme teknikleri, hukuk alanında karar destek, belge analizi ve metin sınıflandırma gibi görevlerde artan bir gereksinimi karşılamakta; bu sayede yüksek hacimli yargı belgelerinin incelenmesi için gereken zaman ve emek azaltılabilmektedir. Bu tezde, Türkiye Cumhuriyeti Yüksek Mahkemelerine (Yargıtay ve Danıştay) ait 6.425 karar incelenmiş ve bu kararlar “onama” ve “bozma” olarak sınıflandırılmıştır. Veri setinde gözlemlenen sınıf dengesizliği, Sentetik Azınlık Sınıfı Üst Örnekleme Tekniği (Synthetic Minority Over-Sampling Technique, SMOTE) Rastgele Alt Örnekleme, bu ikisinin hibrit şekli ve büyük dil modeli ChatGPT (GPT-3.5-turbo) aracılığıyla üretilen sentetik onama kararları olmak üzere dört farklı veri dengeleme yöntemiyle giderilmiştir. Öznitelik mühendisliği kapsamında, metinlerde “doktrin/öğreti”, “karşı oy/muhalefet” ve “direnme” ifadelerinin varlığına dayalı öznitelikler tanımlanmış ve metin temsillerine dâhil edilmiştir. Metinler, Terim Frekansı–Ters Belge Frekansı (TF-IDF) ve Word2Vec vektörleri ile temsil edilmiştir. Sınıflandırma işlemi Karar Ağacı, Rassal Orman, K-En Yakın Komşu, Destek Vektör Makineleri, XGBoost, LightGBM, Yapay Sinir Ağı ve Uzun Kısa Süreli Bellek (LSTM) gibi çeşitli makine öğrenmesi ve derin öğrenme algoritmalarıyla gerçekleştirilmiştir. Model performansları F-ölçütü, Geometrik Ortalama ve Dengeli Doğruluk İndeksi gibi sınıf dengesine duyarlı metriklerle değerlendirilmiştir. Elde edilen sonuçlar Friedman ve Nemenyi testleri ile istatistiksel olarak analiz edilmiştir. Özellikle büyük dil modeli ile yapılan üretken veri dengeleme yaklaşımının, geleneksel yöntemlere kıyasla daha istikrarlı ve başarılı sonuçlar verdiği gözlemlenmiştir. Bu çalışmada üretken yapay zekâ destekli veri dengeleme stratejisi, bağlamsal öznitelik mühendisliği ve farklı metin temsillerinin çoklu sınıflandırma algoritmalarıyla sistematik karşılaştırması yoluyla, Türkçe hukuk metinlerinin sınıflandırılmasına yönelik yöntemsel bir çerçeve sunulmaktadır. Ayrıca büyük dil modellerinin azınlık sınıfı tahmininin performansını artırabileceği gösterilmiştir.
Artificial intelligence and natural language processing techniques address an increasing need in the legal domain for tasks such as decision support, document analysis, and text classification; thus, the time and effort required to examine high-volume judicial documents can be reduced. In this thesis, 6,425 decisions from the high courts of the Republic of Turkey (Court of Cassation and Council of State) were examined and classified as either "approval" or "reversal". The class imbalance observed in the dataset was addressed using four different data balancing methods: Synthetic Minority Over-sampling Technique (SMOTE), Random Undersampling, hybrid form of these two and synthetic approval decisions generated via the large language model ChatGPT (GPT-3.5-turbo). As part of feature engineering, three binary features based on the presence of the expressions “doctrine/teaching,” “dissenting opinion/opposition,” and “resistance” in the texts were defined and included in the text representations. The texts were represented using Term Frequency–Inverse Document Frequency (TF-IDF) and Word2Vec vectors. The classification task was carried out using various machine learning and deep learning algorithms such as Decision Tree, Random Forest, K-Nearest Neighbors, Support Vector Machines, XGBoost, LightGBM, Artificial Neural Network, and Long Short-Term Memory (LSTM). Model performances were evaluated using class imbalance-sensitive metrics such as F-score, Geometric Mean, and Index of Balanced Accuracy (IBA). The obtained results were statistically analyzed using the Friedman and Nemenyi tests. It was observed that the generative data balancing approach using the large language model yielded more stable and successful results compared to traditional methods. This study presents a methodological framework for the classification of Turkish legal texts through a systematic comparison of generative AI-supported data balancing strategies, contextual feature engineering, and different text representations with multiple classification algorithms. Moreover, it has been shown that large language models can enhance the performance of minority class prediction.

Açıklama

Kaynak:

Anahtar Kelimeler:

Konusu

Doğal dil işleme, Yargı kararlarının sınıflandırılması, Veri dengeleme, Makine öğrenmesi, Büyük dil modelleri, Natural language processing, Judicial decision classification, Data balancing, Machine learning, Large language models

Alıntı

Endorsement

Review

Supplemented By

Referenced By

38

Views

49

Downloads