كشف اللغة باستخدام بايز الساذج

خط أنابيب تصنيف النص الذي يستخدم ميزات TF-IDF ومصنف بايز الساذج المتعدد الحدود للتنبؤ بلغة الجمل المدخلة.

التصنيف
تعلم آلي
تاريخ الإنجاز
May 2024
التقنيات المستخدمة
Python 3 pandas NumPy scikit-learn seaborn matplotlib
ملف المشروع
غير مسموح بالتحميل إلا بإذن من أمين قحطان. تواصل معه للحصول على الإذن.

نظرة عامة على المشروع

يقوم دفتر الملاحظات بتحميل مجموعة البيانات "Language Detection.csv" في pandas (10337 إدخالاً مع عمودي "النص" و"اللغة")، ثم ينقسم إلى مجموعات التدريب والاختبار. يقوم بتحويل النص إلى متجه باستخدام <code data-start=\"2331\" data-end=\"2348\">TfidfVectorizer</code>، ويتناسب مع نموذج <code data-start=\"2357\" data-end=\"2372\">MultinomialNB</code>، ويقيّم الأداء عبر درجة الدقة، ومصفوفة الارتباك، وتقرير التصنيف.</td></tr></tbody></table><table><tbody><tr data-start=\"2511\" data-end=\"2879\"><td data-start=\"2511\" data-end=\"2542\" data-col-size=\"sm\"></td></tr></tbody></table>

معاينة ملف

استعرض ملف الخاص بالمشروع أدناه أو اطلب نسخة منه.

لا يمكن معاينة هذا النوع من الملفات مباشرة.