تُعد رسائل البريد الإلكتروني الاحتيالية (Phishing Emails) مصدر قلق كبير وتهديدًا متزايدًا للأمن السيبراني في مجال التواصل عبر الإنترنت، إذ إنها غالبًا ما تتجاوز أنظمة التصفية التقليدية نظرًا لتزايد تعقيدها وذكائها.
تقدم هذه الدراسة تقييماً مقارناً بين نماذج التعلم الآلي (ML) والنماذج اللغوية الكبيرة القائمة على المحولات (LLMs) في مهمة اكتشاف رسائل البريد الإلكتروني الاحتيالية، مع تضمين تحليل لعناوين الروابط (URLs).
شملت الدراسة تدريب نماذج التعلم الآلي وضبط النماذج اللغوية الكبيرة (LLMs Fine-Tuning) على مجموعات بيانات متوازنة وغير متوازنة. تم تقييم عدة نماذج من ML، بما في ذلك الغابة العشوائية (Random Forest)، والانحدار اللوجستي (Logistic Regression)، وآلة المتجهات الداعمة (SVM)، ونايف بايز (Naïve Bayes)، والتعزيز التدرجي (Gradient Boosting)، وشجرة القرار (Decision Tree)، وأقرب الجيران (KNN)، إلى جانب نماذج لغوية كبيرة تعتمد على المحولات مثل DistilBERT، وALBERT، وBERT-Tiny، وELECTRA، وMiniLM، وRoBERTa.
ولزيادة الواقعية، تم تضمين رسائل تصيد تم توليدها بواسطة النماذج اللغوية الكبيرة ضمن التقييم.
أظهرت النتائج أن كلًا من نماذج ML والنماذج اللغوية الكبيرة المضبوطة Fine-Tuned LLMs قدّمت أداءً قويًا في جميع الإعدادات. حيث حقق نموذج Random Forest دقة تجاوزت 98% في كل من اكتشاف الرسائل وتحليل الروابط، بينما حقق DistilBERT نتائج قريبة جدًا من هذا المستوى في كلا المجالين.
أدى موازنة مجموعة البيانات إلى زيادة طفيفة في دقة نماذج ML، ولكن إلى انخفاض بسيط في أداء LLMs، ويُعزى ذلك على الأرجح إلى حساسية هذه النماذج لانخفاض نسبة الفئة الأكبر أثناء التدريب.
بشكل عام، تُظهر النماذج اللغوية الكبيرة كفاءة عالية في التقاط الأنماط اللغوية المعقدة، في حين تظل نماذج التعلم الآلي التقليدية فعالة وتتطلب موارد حسابية أقل.
إن الجمع بين النهجين عبر أسلوب هجين أو تجميعي (Hybrid/Ensemble Approach) يمكن أن يُعزّز فعالية اكتشاف رسائل التصيد الاحتيالي بشكل ملحوظ.
