Predicting thyroid cancer recurrence using supervised CatBoost: A SHAP-based explainable AI approach
Publication Type
Original research
Authors
Fulltext
Download

Recurrence prediction in well-differentiated thyroid cancer remains a clinical challenge, necessitating more accurate and interpretable predictive models. This study investigates the use of a supervised CatBoost classifier to predict recurrence in well-differentiated thyroid cancer patients, comparing its performance against other ensemble models and employing Shapley Additive Explanations (SHAP) to enhance interpretability. A dataset comprising 383 patients with diverse demographic, clinical, and pathological variables was utilized. Data preprocessing steps included handling values and encoding categorical features. The dataset was split into training and testing sets using a 70:30 ratio. Model performance was evaluated using accuracy and area under the receiver operating characteristic curve. A comparative analysis was conducted with other ensemble methods, such as Extra Trees, LightGBM, and XGBoost. SHAP analysis was employed to determine feature importance and assess model interpretability at both the global and local levels. The supervised CatBoost classifier demonstrated superior performance, achieving an accuracy of 97% and an area under the receiver operating characteristic curve of 0.99, outperforming competing models. SHAP analysis revealed that treatment response (SHAP value: 2.077), risk stratification (SHAP value: 0.859), and lymph node involvement (N) (SHAP value: 0.596) were the most influential predictors of recurrence. Local SHAP analyses provided insight into individual predictions, highlighting that misclassification often resulted from overemphasizing a single factor while overlooking other clinically relevant indicators. The supervised CatBoost classifier demonstrated high predictive performance and enhanced interpretability through SHAP analysis. These findings underscore the importance of incorporating multiple predictive factors to improve recurrence risk assessment. While the model shows promise in personalizing thyroid cancer management, further validation on larger, more diverse datasets is warranted to ensure robustness. 

Denetimli CatBoost Kullanılarak Tiroid Kanseri Nüksünün Tahmini: SHAP Tabanlı Açıklanabilir Yapay Zekâ Yaklaşımı

İyi diferansiye tiroid kanserinde nüks tahmini klinik açıdan hâlen önemli bir zorluktur ve daha doğru ve yorumlanabilir öngörü modellerine ihtiyaç duyulmaktadır. Bu çalışma, iyi diferansiye tiroid kanseri olan hastalarda nüksü tahmin etmek için denetimli CatBoost sınıflandırıcısının kullanımını araştırmakta, performansını diğer topluluk modelleriyle karşılaştırmakta ve yorumlanabilirliği artırmak için Shapley Additive Explanations (SHAP) yöntemini uygulamaktadır.

383 hastadan oluşan ve çeşitli demografik, klinik ve patolojik değişkenler içeren bir veri seti kullanılmıştır. Veri ön işleme adımları arasında eksik değerlerin işlenmesi ve kategorik değişkenlerin kodlanması yer almıştır. Veri seti %70 eğitim ve %30 test olacak şekilde ikiye ayrılmıştır. Modelin performansı doğruluk (Accuracy) ve alıcı işletim karakteristiği eğrisi altında kalan alan (AUC) ile değerlendirilmiştir. Extra Trees, LightGBM ve XGBoost gibi diğer topluluk yöntemleriyle karşılaştırmalı analiz yapılmıştır.

Değişken önemini belirlemek ve modelin hem genel hem de bireysel düzeyde yorumlanabilirliğini değerlendirmek için SHAP analizi kullanılmıştır. Denetimli CatBoost sınıflandırıcısı üstün performans göstermiş; %97 doğruluk ve 0.99 AUC elde ederek rakip modelleri geride bırakmıştır. SHAP analizi, tedavi yanıtının (SHAP değeri: 2.077), risk sınıflandırmasının (0.859) ve lenf nodu tutulumu (N) (0.596) faktörlerinin nüksün en güçlü öngörücüleri olduğunu ortaya koymuştur. Yerel SHAP analizleri, bireysel tahminler hakkında ayrıntılı içgörüler sağlamış, yanlış sınıflandırmanın çoğunlukla tek bir faktöre aşırı vurgu yapılması ve diğer klinik olarak ilgili göstergelerin göz ardı edilmesinden kaynaklandığını göstermiştir.

Denetimli CatBoost sınıflandırıcısı yüksek öngörü performansı göstermiş ve SHAP analizi aracılığıyla yorumlanabilirliği artırmıştır. Bu bulgular, nüks risk değerlendirmesini geliştirmek için birden fazla öngörü faktörünün bir araya getirilmesinin önemini vurgulamaktadır. Model tiroid kanseri yönetiminin kişiselleştirilmesinde umut verici görünmekle birlikte, sağlamlık için daha büyük ve daha çeşitli veri setlerinde ek doğrulamaya ihtiyaç vardır.

 

Journal
Title
Medicine
Publisher
Wolters Kluwer
Publisher Country
Netherlands
Indexing
Thomson Reuters
Impact Factor
1.4
Publication Type
Online only
Volume
104
Year
22
Pages
e42667