Please use this identifier to cite or link to this item: http://hdl.handle.net/11452/3403
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorErtaş, Figen-
dc.contributor.authorEskidere, Ömer-
dc.date.accessioned2019-12-17T12:09:41Z-
dc.date.available2019-12-17T12:09:41Z-
dc.date.issued2007-11-05-
dc.identifier.citationEskidere, Ö. (2007). İstatiksel modelleme ile konuşmacı tanıma. Yayınlanmamış doktora tezi. Uludağ Üniversitesi Fen Bilimleri Enstitüsü.tr_TR
dc.identifier.urihttp://hdl.handle.net/11452/3403-
dc.description.abstractKisilerin konusmalarından kim olduklarının belirlenebilmesi önemi giderek artan bir ilgi alanı haline gelmistir. Uzun yıllardır kullanılan parmak izi ve retina gibi kisiye has, kisinin kimligini tanımlayıcı biometrik özelliklere son yıllarda ses de eklenmistir. Konusma örneginden kisinin kimliginin belirlenebilmesinin günümüzde özellikle güvenlik, giris ve/veya erisim kontrolü, telefon bankacılıgı gibi önemli uygulama alanları mevcuttur. Bu tip gerçek zamanlı sistemlerde en büyük sorun seslerin kaydedildigi ortamın gürültülü olması ya da konusmaların iletildigi kanalların (özellikle telefon hattı) bozucu etkisidir. Dolayısıyla, son yıllarda amaç, sistem basarımını olumsuz etkileyen bu tip etkileri en aza indirmek ve/veya bu sartlarda çalısacak dayanıklı sistemler gelistirmektir. Bu tezde Gauss Karısım Modeli (GKM) temeline dayanan, telefon hattı etkilerine karsı dayanıklı, bir konusmacı tanıma sistemi olusturulmustur. Sistem egitim ve test olmak üzere iki asamalıdır. Kisinin sesinden kimligini en iyi temsil eden öznitelikler olarak da MFCC kullanılmıs ve model parametreleri beklentinin maksimumlastırılması algoritması ile kestirilmistir. Test asamasında aday konusmacıya ait öznitelikler, egitim asamasında olusturulan her bir konusmacı modele uygulanmakta ve maksimum olasılıgı veren model konusmacıyı belirlenmektedir. Konusmacı tanıma sistemi, temiz konusma (TIMIT) ve telefon konusması (NTIMIT) içeren iki veritabanı ile denenmistir. Her iki veritabanı için, egitim ve test asamalarında, konusmacı tanıma sistemine etkisi olan tüm parametreler incelenmis ve parametrelerin optimum degerleri belirlenmistir. Ayrıca formant frekansları, perde frekansı ve enerji gibi sesin bürünsel özellikleri tek basına ve MFCC öznitelikleri ile birlikte kullanılarak konusmacı tanıma performansı ölçülmüs, perde frekansının, telefon ortamında ortalama 8.34 puan tanıma artısı sagladıgı görülmüstür. Özniteliklerin olusturulmasında kepstrum katsayılarının kümelenerek agırlıklandırılması ve konusmacı frekans bandı parçalara ayrılıp, bu parçalara F-oranına baglı olarak süzgeçler yerlestirilmesi önerilmis olup, bu iki yöntem ile konusmacı tanıma oranında 10 puana varan artıs saglanmıstır.tr_TR
dc.description.abstractIdentifying speakers from their voices has been an area of interest that received ever increasing attention. In recent years, voice has also been added to the individualspecific biometric features representing the identity of individuals such as commonly employed finger print and retina, and the identification of speakers from their voice samples has recently found place particularly in security, access control, and telephone banking applications. The problem in such real time systems is the noise and/or distortion induced by the environments where the speech samples are taken and the media (particularly telephone lines) though which the speech samples are transmitted, respectively. In recent years, efforts have been made to minimize the impact of such factors that severely damage the identification performance, or to develop systems that are robust to such disturbances. In this thesis, a speaker identification system based on Gaussian Mixture Model (GMM) has been developed that is robust to telephone line distortion, employing mel frequency cepstrum coefficients (MFCC) as speaker specific features, which are known to best represent speakers? identity, along with the Expectation Maximization algorithm for the estimation of speaker model parameters. The system consists of two stages, namely, training and testing. In the training session, a model is produced for each speaker to represent their identity, and the input speaker is identified in the test session by deciding on the model that provides the highest probability. The system has been tested on both clean speech (TIMIT) and telephone speech (NTIMIT) databases. From feature extraction to model training and testing, various parameters that affect the system performance have been investigated and optimized using both speech databases. Identification performance of the system has been determined for cases where prosodic features of speech such as formant frequency, pitch frequency, and energy are employed on their own and in combination with MFCC. It has been found that pitch frequency provides 8.34 point increase in identification performance on telephone speech when used in combination with MFCC. Weighted clustering of cepstral coefficients and adaptive filtering have been introduced in extracting discriminatory features. Up to 10 point increase in identification performance has been obtained by each technique.en_US
dc.format.extentXVIII, 198 sayfatr_TR
dc.language.isotrtr_TR
dc.publisherUludağ Üniversitesitr_TR
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.rightsAtıf 4.0 Uluslararasıtr_TR
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/*
dc.subjectKonuşmacı tanımatr_TR
dc.subjectGauss karışım modelitr_TR
dc.subjectMFCCtr_TR
dc.subjectÖznitelik vektörleritr_TR
dc.subjectTIMIT/NTIMIT veritabanlarıtr_TR
dc.subjectSpeaker identificationen_US
dc.subjectGaussian mixture modelsen_US
dc.subjectFeature vectorsen_US
dc.subjectTIMIT/ NTIMIT databasesen_US
dc.titleİstatiksel modelleme ile konuşmacı tanımatr_TR
dc.title.alternativeSpeaker identification with statistics modelingen_US
dc.typedoctoralThesisen_US
dc.relation.publicationcategoryTeztr_TR
dc.contributor.departmentUludağ Üniversitesi/Fen Bilimleri Enstitüsü/Elektronik Mühendisliği Anabilim Dalı.tr_TR
Appears in Collections:Doktora Tezleri / PhD Dissertations

Files in This Item:
File Description SizeFormat 
202288.pdf11.37 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons