ظهر التعلم الذاتي (SSL) كنهج ثوري في مجال التعرف على الكلام، حيث يمكّن النماذج من الاستفادة من كميات هائلة من البيانات غير الموسومة ويقلل الاعتماد على مجموعات البيانات المعلّمة. تستعرض هذه الورقة البحثية منهجيات التعلم الذاتي الرئيسية مثل التعلم التبايني، والتنبؤ المقنع، وتقنيات التجميع، والنهج القائمة على المعلومات المتبادلة، وتقيم فعاليتها في مهام التعرف على الكلام. يبرز التعلم التبايني، المتمثل في أطر عمل مثل SimCLR وMoCo، في تعزيز متانة الميزات من خلال زيادة البيانات والعينات السلبية. بينما يتفوق التنبؤ المقنع، كما في نموذج Wav2Vec 2.0، في تعلم العلاقات السياقية من خلال إعادة بناء المقاطع الصوتية المقنعة. تحسّن طرق التجميع التعميم من خلال تجميع الميزات الصوتية المتشابهة، في حين تعمل تقنيات المعلومات المتبادلة على تحسين جودة التمثيل. على الرغم من هذه المزايا، تواجه منهجيات التعلم الذاتي تحديات مثل تعقيد التنفيذ، واعتمادها على جودة البيانات، والاحتياجات الحسابية العالية. تشمل اتجاهات البحث المستقبلية تطوير نماذج هجينة تجمع بين التعلم الذاتي والتعلم الخاضع للإشراف، ودمج الوسائط المتعددة، وتطبيقات في اللغات قليلة الموارد والأنظمة في الوقت الفعلي. من خلال معالجة هذه التحديات، يعد التعلم الذاتي بتطوير تقنيات التعرف على الكلام، مقدماً حلولاً قابلة للتطوير وفعالة لتطبيقات متنوعة في العالم الحقيقي.