نظام التعرف التلقائي على الكلام متعدد الوسائط مع الوعي السياقي والحساسية العاطفية
الكلمات المفتاحية:
التعرف التلقائي على الكلام المتعدد الوسائط (ASR)، التعرف على الكلام العربي، اكتشاف المشاعر، معالجة الكلام السمعي البصري، Wav2Vec 2.0، قراءة الشفاه، مجموعة بيانات AVANEmoالملخص
إن الطلب المتزايد على أنظمة التعرف على الكلام الدقيقة في اللغات المتنوعة، وخاصة العربية، يفرض تحديات كبيرة بسبب الاختلافات في اللهجات، والضوضاء في الخلفية، والسياق العاطفي. غالبًا ما تكافح نماذج التعرف التلقائي على الكلام التقليدية للحفاظ على دقة عالية في وجود هذه العوامل، مما يؤدي إلى أداء دون المستوى الأمثل في التطبيقات في العالم الحقيقي. تقدم هذه الدراسة نظام التعرف التلقائي على الكلام متعدد الوسائط الجديد الذي يعالج هذه التحديات من خلال دمج الإشارات الصوتية والمرئية والعاطفية لتعزيز دقة النسخ وكشف المشاعر للكلام العربي.
تم تقييم النموذج المقترح على مجموعة بيانات المشاعر الطبيعية العربية السمعية والبصرية (AVANEmo)، باستخدام أحدث التقنيات، بما في ذلك Wav2Vec 2.0 لاستخراج ميزات الصوت، والشبكات العصبية التلافيفية للتعرف على حركة الشفاه، ونموذج اللغة السياقية لتحسين المخرجات. حقق النظام معدل خطأ في الكلمات (WER) بنسبة 16.3% ومعدل خطأ في الأحرف (CER) بنسبة 10.7%، متفوقًا على النماذج الحالية مثل DeepSpeech (19.4% WER، 13.7% CER) وJasper (18.2% WER، 12.9% CER). وعلاوة على ذلك، أظهر النموذج المقترح دقة ملحوظة بنسبة 88.9% للكشف عن المشاعر، متجاوزًا بشكل كبير أداء النماذج السابقة، التي أبلغت عن دقة بنسبة 84.2%. وتؤكد هذه النتائج على فعالية النهج المتعدد الوسائط في تعزيز التعرف على الكلام العربي وتصنيف المشاعر، مما يسلط الضوء على إمكاناته للتطبيقات في العالم الحقيقي.