Co-occurrence weight selection for word embeddings to enhance test performance

Loading...
Thumbnail Image

Date

2018-02-07

Authors

Koç, Aykut
Yücesoy, Veysel

Journal Title

Journal ISSN

Volume Title

Publisher

Uludağ Üniversitesi

Abstract

This study revisits the problem of maximizing the performance of mathematical word representations for a given task. It is aimed to improve performance in analogy and similarity tasks by suggesting innovative weights instead of the counting weights used conventionally in counting-based methods of generating word representations (adding the statistics of word co-occurrences to the account). The language of study was selected as Turkish. The root structures of Turkish words were managed during the compilation of corpus such that each word having a suffix was considered as a new word. The performance of the proposed co-occurrence weights are analyzed with respect to the varying parameter and the results are presented within the paper.
Bu çalışma, matematiksel kelime temsillerinin belirli bir görev için performanslarının en iyilenmesi problemini yeniden ele almaktadır. Sayma tabanlı (kelimelerin eşdizimlilik istatistiklerini hesaba katan) kelime temsili oluşturma yöntemlerinde klasik olarak kullanılan sayma ağırlıkları yerine yenilikçi ağırlıklar önererek analoji ve benzerlik bulma görevlerinde performans artışı sağlamak hedeflenmektedir. Çalışma dili olarak Türkçe seçilmiş, derlem oluşturulurken Türkçe’ye has ek-kök yapıları ek alan her kelime yeni bir kelime gibi kabul edilecek şekilde yorumlanmıştır. Önerilen eşdizimlilik ağırlıklarının performansı değişen parametreye göre analiz edilerek sonuçlar çalışma içerisinde paylaşılmıştır.

Description

Keywords

Word embeddings, Natural language processing, Statistical linguistics, Kelime temsilleri, Doğal dil işleme, İstatistiksel dilbilimi

Citation

Koç, A. ve Yücesoy, V. (2018). "Co-occurrence weight selection for word embeddings to enhance test performance". Uludağ Üniversitesi Mühendislik Fakültesi Dergisi, 23(1), 31-40.