Bürünsel özelliklerin konuşmacı tanıma performansına etkisi

dc.contributor.buuauthorEskidere, Ömer
dc.contributor.buuauthorErtaş, Figen
dc.contributor.departmentUludağ Üniversitesi/Teknik Bilimler Meslek Yüksek Okulu/Mekatronik Programı.tr_TR
dc.contributor.departmentUludağ Üniversitesi/Mühendislik-Mimarlık Fakültesi/Elektronik Mühendisliği Bölümü.tr_TR
dc.date.accessioned2020-08-05T11:56:23Z
dc.date.available2020-08-05T11:56:23Z
dc.date.issued2009
dc.description.abstractBu makalede, bürünsel özniteliklerin gürültü içeren ortamlarda konuşmacı tanıma başarımına etkileri incelenmiştir. Bunun için, formant frekansı, sinyal enerjisi ve perde frekansı bürünsel özellikleri ve mel frekansı kepstrum katsayıları (MFCC) konuşma sinyalinden elde edilmiştir. Daha sonra her bir konuşmacı için özniteliklerin dağılımı Gauss karışım modeli ile modellenmiştir. Konuşmacı tanıma başarımı TIMIT ve NTIMIT veritabanları ile test edilmiştir. Gürültü ortamı NOISEX veritabanı kullanılarak oluşturulmuştur. Deneysel sonuçlar, enerjinin birinci türevi ve formant frekansları oranının (F3/F2), öznitelik vektörleriyle birlikte kullanılmasının konuşmacı tanıma hata oranını azalttığını göstermiştir. Ayrıca perde frekansının, gürültü ve telefon ortamının oluşturduğu bozulmalara karşı gürbüz bir öznitelik olduğu bulunmuştur.tr_TR
dc.description.abstractIn this paper, the effect of the prosodic features on the performance of the speaker identification system in the noisy environment is investigated. For this purpose, the prosodic features, formant frequency, signal energy and pitch frequency, and mel frequency cepstrum coefficients (MFCC) are extracted from the speech signal. And then the distribution of the features for each speaker is modeled by Gaussian Mixture Model (GMM). The speaker recognition is performed on the TIMIT and NTIMIT databases. The noisy environment is created using the NOISEX database. The experimental results showed that when first derivative of the energy and the ratio of the formant frequencies (F3/F2) are used in feature vector, the speaker identification error rate decreases. It is also founded particularly that the pitch frequency is the robust feature against noise and distortion in the phone lines.en_US
dc.identifier.citationEskidere, Ö. ve Ertaş, F. (2009). "Bürünsel özelliklerin konuşmacı tanıma performansına etkisi". Uludağ Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi, 14(2), 111-129.tr_TR
dc.identifier.endpage129tr_TR
dc.identifier.issn2148-4147
dc.identifier.issue2tr_TR
dc.identifier.startpage111tr_TR
dc.identifier.urihttps://dergipark.org.tr/tr/download/article-file/202720
dc.identifier.urihttp://hdl.handle.net/11452/11953
dc.identifier.volume14tr_TR
dc.language.isotrtr_TR
dc.publisherUludağ Üniversitesitr_TR
dc.relation.journalUludağ Üniversitesi Mühendislik Dergisi / Uludağ University Journal of The Faculty of Engineeringtr_TR
dc.relation.publicationcategoryMakale - Uluslararası Hakemli Dergitr_TR
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.source.uriAtıf 4.0 Uluslararasıtr_TR
dc.subjectBürünsel özelliklertr_TR
dc.subjectFormant frekansıtr_TR
dc.subjectEnerjitr_TR
dc.subjectPerde frekansıtr_TR
dc.subjectKonuşmacı tanımatr_TR
dc.subjectGauss karışım modelitr_TR
dc.subjectProsodic featuresen_US
dc.subjectFormant frequencyen_US
dc.subjectEnergyen_US
dc.subjectPitch frequencyen_US
dc.subjectSpeaker identification and Gaussian mixture modelen_US
dc.titleBürünsel özelliklerin konuşmacı tanıma performansına etkisitr_TR
dc.title.alternativeThe effect of prosodic features on performance speaker identificationen_US
dc.typeArticleen_US

Files

Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
14_2_9.pdf
Size:
1011 KB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: