دمج التعلم العميق وذكاء السرب للتعرف على الكلام: مراجعة

المؤلفون

جامعة الموصل / كلية علوم الحاسوب والرياضيات /قسم علوم الحاسوب

المستخلص
ملخص
مع التركيز على التعلم العميق وتقنيات التحسين المستوحاة من علم الأحياء، تُقدم هذه الورقة البحثية نظرة عامة شاملة على التطورات الحالية في أنظمة كشف الصوت والانفعالات. الشبكات المتكررة المتقدمة مثل GRU وSVNN، وأطر عمل التشفير وفك التشفير القائمة على الانتباه، وبنى CNN-LSTM الهجينة، ليست سوى أمثلة قليلة من النماذج التي تمت دراستها في الأوراق البحثية. ولزيادة المتانة، تُستخدم طرق استخراج الميزات مثل MFCC وPLPC وLPCC وبنوك مرشحات log Mel بشكل متكرر، بالتزامن مع تقنيات تعزيز البيانات، بما في ذلك اضطراب السرعة، وحقن الضوضاء، وتحويل درجة الصوت. ولتحسين اختيار الميزات وأداء المصنف، تُستخدم عدد من طرق التحسين، بما في ذلك تحسين سرب الجسيمات (PSO)، وتحسين سرب القطط (CSO)، وتحسين سرب الديدان المتوهجة (GSO)، والتقنيات الهجينة المبتكرة مثل MUPW وGREO. تُظهر الأعمال المدروسة دقةً فائقةً في مجموعة متنوعة من المهام، مثل أنظمة التعرف متعددة الوسائط (السمعية والبصرية)، والتعرف على اللهجات العربية، وتصنيف الكلام العاطفي. ووفقًا للنتائج التجريبية، هناك تحسينات كبيرة في الأداء مقارنةً بالنماذج القياسية؛ ففي بعض الأنظمة، يمكن أن تصل معدلات الدقة إلى 99.76%. تُسلّط هذه الورقة الضوء على الفعالية المتزايدة لدمج التعلم العميق مع التحسين الذكي، كما تُقدّم توصياتٍ للتطورات المستقبلية، بما في ذلك البنى القائمة على المحولات، والتكيف الآني، وزيادة البيانات الخاصة بالمجال.

الموضوعات الرئيسية