نوع المقالة : بحث
الملخص
منذ ذلك الحين، واصلنا تطوير نماذج اللغة الكبيرة (LLMs) باستخدام أنظمة تدريب متنوعة، غالبًا ما تستفيد من أهداف النمذجة اللغوية الذاتية الإشراف، مثل التنبؤ بالكلمة التالية أو إفساد المدى (span corruption). وفي الوقت نفسه، تعتمد أنظمة الترجمة الآلية (MT) عادةً على الإشراف متعدد اللغات، والذي يتطلب وجود بيانات متوافقة بين زوجي اللغة المصدر والهدف.ولمعالجة هذه التحديات المرتبطة باللغات منخفضة الموارد (ELVs)، قمنا بتطوير إطار جديد يُسمى "التمهيد المسبق للترجمة المستمرة" (CTP)، وهو إطار يربط الفضاء اللغوي المستمر برسم خرائط لغوية موثوقة ومقيّدة. نُظهر أن النماذج التي يتم تمهيدها مسبقًا بمزيج من أهداف النمذجة اللغوية الذاتية الإشراف وأهداف الترجمة الآلية الخاضعة للإشراف تؤدي أداءً أفضل بكثير في مهام الترجمة عمومًا، وخاصة في أزواج اللغات منخفضة الموارد.وتُظهر التجارب الواسعة على عدة أزواج لغوية تحقيق مكاسب كبيرة في بيئات الترجمة دون تدريب مسبق (zero-shot) وكذلك في بيئات التخصيص (fine-tuned)، حيث تصل التحسينات إلى 4.5 نقطة في مقياس BLEU مقارنةً بالأساليب التقليدية.ويسهّل هذا الإطار المقترح تحسين الأداء في الأشكال اللغوية الجديدة دون الحاجة إلى مجموعات ضخمة من النصوص المتوازية، مما يُعد ميزة في البيئات اللغوية الأقل تطورًا واللهجات. تشمل مساهماتنا نظرة معمقة على بنية النموذج، وعملية التدريب، وتطبيقات هذا النموذج، بالإضافة إلى إطار تقييم جديد مُصمم خصيصًا لحالات اللغات منخفضة المصدر.