يظل التنبؤ بعودة الإصابة بسرطان الغدة الدرقية جيد التمايز تحديًا سريريًا، مما يستلزم تطوير نماذج تنبؤية أكثر دقة وقابلة للتفسير. تبحث هذه الدراسة في استخدام مصنف CatBoost تحت الإشراف للتنبؤ بعودة الإصابة لدى مرضى سرطان الغدة الدرقية جيد التمايز، مع مقارنة أدائه بنماذج التجميع الأخرى، واستخدام طريقة Shapley Additive Explanations (SHAP) لتعزيز إمكانية التفسير.
تم استخدام قاعدة بيانات مكونة من 383 مريضًا تحتوي على متغيرات ديموغرافية وسريرية وباثولوجية متنوعة. تضمنت خطوات المعالجة المسبقة للبيانات التعامل مع القيم المفقودة وترميز المتغيرات الفئوية. قُسِّمت البيانات إلى مجموعة تدريب (70%) ومجموعة اختبار (30%). جرى تقييم أداء النموذج باستخدام الدقة (Accuracy) والمساحة تحت منحنى خصائص التشغيل المستقبلية (AUC). كما أجري تحليل مقارن مع طرق تجميع أخرى مثل Extra Trees وLightGBM وXGBoost.
استخدم تحليل SHAP لتحديد أهمية المتغيرات وتقييم إمكانية تفسير النموذج على المستويين العام والفردي. أظهر مصنف CatBoost تحت الإشراف أداءً متفوقًا، حيث حقق دقة بلغت 97% ومنطقة تحت المنحنى بلغت 0.99، متفوقًا على النماذج المنافسة. كشف تحليل SHAP أن الاستجابة للعلاج (قيمة SHAP = 2.077)، والتصنيف الخطر (0.859)، وتورط العقد اللمفاوية (N) (0.596) كانت أهم المتنبئات بعودة المرض. كما وفرت تحليلات SHAP المحلية نظرة متعمقة للتنبؤات الفردية، مظهرة أن سوء التصنيف غالبًا ما نتج عن المبالغة في عامل واحد وإغفال مؤشرات سريرية أخرى ذات صلة.
أثبت مصنف CatBoost تحت الإشراف قدرة تنبؤية عالية مع تعزيز إمكانية التفسير عبر تحليل SHAP. وتؤكد هذه النتائج على أهمية دمج عوامل تنبؤية متعددة لتحسين تقييم مخاطر عودة المرض. وبينما يظهر النموذج واعدًا في تخصيص إدارة سرطان الغدة الدرقية، فإن هناك حاجة إلى المزيد من التحقق باستخدام قواعد بيانات أكبر وأكثر تنوعًا لضمان قوة النتائج.
