Yayın:
Evaluating the performance of large language models in generating impressions for radiology reports

dc.contributor.buuauthorKAYA, HASAN EMİN
dc.contributor.buuauthorSAĞLAM, DİLEK
dc.contributor.buuauthorYAZICI, ZEYNEP
dc.contributor.buuauthorGÖKALP, GÖKHAN
dc.contributor.departmentTıp Fakültesi
dc.contributor.departmentRadyoloji Ana Bilim Dalı
dc.contributor.orcid0000-0002-7411-4102
dc.contributor.orcid0000-0002-5778-6847
dc.contributor.orcid0000-0002-8647-5298
dc.contributor.orcid0000-0002-3682-2474
dc.date.accessioned2025-09-26T05:15:30Z
dc.date.issued2025-07-31
dc.description.abstractThe aim of the study was to evaluate and compare the performance of three popular large language models (LLMs) in generating impressions for radiology reports in Turkish. ChatGPT, Gemini, and Copilot were used to generate impressions for 50 anonymized radiology reports using a “few-shot” prompt. The impressions were scored by three radiologists using a Likert scale, based on whether they included all relevant information from the report, provided an appropriate summary of the report, contained no misleading information, and could be added to the report without modification. Friedman's test was used to evaluate whether there was a difference between the scores of the LLMs. The 50 reports included 32 magnetic resonance examinations, 11 computed tomography examinations, 5 ultrasound examinations, and 2 fluoroscopy examinations. Of these, 15 were neuroradiology studies, 14 were musculoskeletal studies, 13 were abdominal studies, and 8 were thoracic radiology studies. The median scores for the models’ outputs were 4 and 5. This finding indicates that the radiologists generally found the models successful in generating impressions. Furthermore, no statistically significant difference was found among the models in terms of their performance in containing all information, providing an appropriate summary, avoiding misleading information, and being suitable for inclusion in the report without modification (p = 0.607, 0.327, 0.629, 0.089, respectively). In conclusion, ChatGPT, Gemini, and Copilot were found to be successful in generating impressions for radiology reports in Turkish, and no significant difference in performance was detected among the models.
dc.description.abstractÇalışmamızın amacı popüler üç büyük dil modelinin (BDM) Türkçe radyoloji raporları için sonuç bölümü oluşturma konusundaki performansını değerlendirip mukayese etmekti. Anonimize edilmiş 50 radyoloji raporu için, “few-shot” bir komut ile, ChatGPT, Gemini ve Copilot dil modellerine sonuç bölümü oluşturuldu. Sonuçlar; rapordaki tüm bilgileri içerme, raporu uygun bir şekilde özetleme, yanıltıcı bilgi içermeme ve değiştirilmeden rapora eklenebilme açısından üç radyolog tarafından bir Likert skalası kullanılarak skorlandı. Friedman testi ile BDM’lerin skorları arasında fark olup olmadığı değerlendirildi. Çalışmaya dahil edilen 50 raporun 32’si manyetik rezonans, 11’i bilgisayarlı tomografi, 5’i ultrason ve 2’si floroskopi tetkikleriydi. Bu tetkiklerden 15’i nöroradyoloji, 14’ü kas-iskelet, 13’ü abdomen ve 8’i toraks radyolojisi çalışmalarıydı. Üç radyoloğun yaptığı skorlamalarda modellerin aldığı skorların medyan değerleri 4 ve 5 idi. Bu bulgu modellerin sonuç oluşturmada radyologlar tarafından genel olarak başarılı bulunduğunu göstermekteydi. Ayrıca modeller arasında bütün bilgileri içerme, raporu uygun bir şekilde özetleme, yanıltıcı bilgi içermeme ve değiştirilmeden rapora eklenebilme performansı açısından istatistiksel bir farklılık saptanmadı (p değerleri sırasıyla 0,607; 0,327; 0,629; 0,089). Sonuç olarak ChatGPT, Gemini ve Copilot Türkçe radyoloji raporları için sonuç bölümü oluşturmada başarılı bulunmuş ve modellerin performansı arasında anlamlı bir farklılık saptanmamıştır.
dc.identifier.doi10.32708/uutfd.1653680
dc.identifier.endpage309
dc.identifier.issue2
dc.identifier.startpage305
dc.identifier.urihttps://doi.org/10.32708/uutfd.1653680
dc.identifier.urihttps://dergipark.org.tr/tr/pub/uutfd/issue/92411/1653680
dc.identifier.urihttps://dergipark.org.tr/tr/download/article-file/4672040
dc.identifier.urihttps://hdl.handle.net/11452/55212
dc.identifier.volume51
dc.language.isoen
dc.relation.journalUludağ Üniversitesi Tıp Fakültesi Dergisi
dc.relation.publicationcategoryMakale - Uluslararası Hakemli Dergi
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjectRadiology
dc.subjectArtificial intelligence
dc.subjectLarge language models
dc.subjectRadyoloji
dc.subjectYapay zeka
dc.subjectBüyük dil modelleri
dc.titleEvaluating the performance of large language models in generating impressions for radiology reports
dc.title.alternativeBüyük dil modellerinin radyoloji raporları için sonuç bölümü oluşturmadaki performanslarının değerlendirilmesitr
dc.typeArticle
dspace.entity.typePublication
local.contributor.departmentTıp Fakültesi/Radyoloji Ana Bilim Dalı
relation.isAuthorOfPublication820ae5d8-78dc-4cbe-84ad-3afa735304d2
relation.isAuthorOfPublicationaa73fb79-ca82-423d-84d8-f27d646310a8
relation.isAuthorOfPublication523d917f-26be-4117-90bc-22d8bb2ec1a9
relation.isAuthorOfPublication5202eef7-6338-46d2-a3aa-dfc334e8221d
relation.isAuthorOfPublication.latestForDiscovery820ae5d8-78dc-4cbe-84ad-3afa735304d2

Dosyalar

Orijinal seri

Şimdi gösteriliyor 1 - 1 / 1
Küçük Resim
Ad:
51_2_20.pdf
Boyut:
504.16 KB
Format:
Adobe Portable Document Format