Sağkalım verilerinde kullanılan ağaç tabanlı yöntemlerin karşılaştırılması

Loading...
Thumbnail Image

Date

2017-01-19

Authors

Yabacı, Ayşegül

Journal Title

Journal ISSN

Volume Title

Publisher

Uludağ Üniversitesi

Abstract

Karar ağaçları, sınıflama ve regresyon probleminin çözümünde çok aşamalı ve ardışık bir yaklaşım ile karmaşık yapıdaki verileri aşamalı bir hale dönüştürerek basit bir karar verme işlemini gerçekleştirmektedir. Sağkalım ağaçları ve ormanları ise parametrik ve yarı parametrik modellerin popüler parametrik olmayan bir alternatifidir. Bu yöntemler diğer yöntemlere göre oldukça esnek olup daha önceden belirlenmeden etkileşimlerin otomatik olarak ortaya konulmasını sağlarlar. Koşullu çıkarsama ağaçları (KÇA) yöntemi, iyi tanımlanmış koşullu çıkarsama prosedürleri içinde ağaç tabanlı regresyon modellerinin parametrik olmayan bir sınıfıdır. Koşullu çıkarsama ağaçları yöntemi sınıflayıcı, sıralayıcı, sayısal, sansürlü ve bunlara ek olarak çoklu yanıt değişkenleri ve rasgele ölçekle ölçeklendirilmiş ortak değişkenleri içeren tüm regresyon problemlerinde uygulanabilir. Koşullu çıkarsama ormanları (KÇO), çok sayıda KÇA’nın birleştirilmesiyle gerçekleştirilen bir sağkalım ormanı yöntemidir. KÇO yöntemi, sansürlenme varlığında topluluk öğrenmesi için birleştirilmiş ve esnek bir yapı önermektedir. Bu yöntem sağdan sansürlü veriler için hastaların sağkalım zamanının tahmininde kullanılır. Rasgele sağkalım ormanları (RSO) yöntemi, rasgele ormanlar yönteminin bir uzantısıdır. Bu yöntemde rasgelelik iki şekilde tanımlanmaktadır. İlk olarak ağacın büyümesi için verinin rasgele olarak bootstrap örnekleminden çekilmesi, ikinci olarak ise ağacın her bir düğümünde ayırma için ortak değişkenlerin alt kümelere rasgele olarak seçilmesidir. RSO yöntemi, düşük genelleme hatasını sürdürürken zengin sınıf ayrımları sağlamaktadır. Bu çalışmada KÇA, KÇO ve RSO yöntemleri açıklanmış ve simülasyon çalışması ile sağkalım ormanları yöntemleri olan KÇO ve RSO’nun performansları karşılaştırılmıştır. Simülasyon çalışmasından elde edilen sonuçlara göre RSO yönteminin KÇO’ ya göre daha iyi performans gösterdiği belirlenmiştir.
Decision trees, carry out a simple decision process by transforming data which are in a complex structure to a gradual form, using multi stage and sequantial approach in classification and regression problems. Survival trees and forests are popular non parametric alternatives of parametric and semi-parametric survival models. These methods are more flexible than the other methods and provide putting forward the interactions automatically which have not been determined before. Conditional inference trees (Ctree) is a non-parametric class of regression trees embedding tree-structured regression models into a well defined theory of conditional inference procedures. It is applicable to all kinds of regression problems, including nominal, ordinal, numeric, censored as well as multivariate response variables and arbitrary measurement scales of the covariates. Conditional inference forests (Cforest) is a survival forest method which is conducted by combining a large number of Ctrees. Cforest propose an unified and flexible framework for ensemble learning in the presence of censoring. The methodology is utilized for predicting the survival time of patients for right cencored data. Random survival forests (RSF) methodology extends Breiman’s random forests (RF) method. In RF, randomization is introduced in two forms. First, a randomly drawn bootstrap sample of the data is used to grow a tree. Second, at each node of the tree, a randomly selected subset of covariates are chosen as candidate variables for splitting. In addition, RSF enables to approximate rich classes of functions while maintaining low generalization error. In the present study, Ctree, Cforest and RSF methods have been explanined in detail and the performances of the survival forest methods namely Cforest and RSF have been compared with the simulation study. According to results the simulation part of the study, it is determined that the RSF method performs better than the other two tree-based method.

Description

Keywords

Ağaç-tabanlı yöntemler, Rasgele sağkalım ormanları, Koşullu çıkarsama ağaçları, Koşullu çıkarsama ormanları, Tree-based methods, Random survival forests, Conditional inferences trees, Conditional inferences forests

Citation

Yabacı, A. (2017). Sağkalım verilerinde kullanılan ağaç tabanlı yöntemlerin karşılaştırılması. Yayınlanmamış yüksek lisans tezi. Uludağ Üniversitesi Sağlık Bilimleri Enstitüsü.