نموذج واحد يدعم جميع اللهجات ويوفر تجارب جديدة لمليارات الأشخاص
فتحت شركة فيسبوك نموذج ذكاء اصطناعي يمكنه الترجمة بين أي لغة من أصل 100 لغة دون ترجمتها أولًا إلى الإنجليزية كخطوة وسيطة.
ويسمى النظام M2M-100، وهو حاليًا مشروع بحثي فقط، لكن يمكن استخدامه في النهاية لترجمة المنشورات لمستخدمي فيسبوك الذين ينشرون المحتوى بأكثر من 160 لغة.
وقالت مساعدة البحث في فيسبوك أنجيلا فان، في تويتة: كان باحثو الذكاء الاصطناعي يعملون على مدار سنوات من أجل بناء نموذج عالمي واحد يمكنه فهم جميع اللغات عبر المهام المختلفة، مضيفة: يساعدنا نموذج واحد يدعم جميع اللغات واللهجات على تقديم خدمة أفضل لعدد أكبر من الأشخاص، وتحديث الترجمات باستمرار، وإيجاد تجارب جديدة لمليارات الأشخاص على قدم المساواة، ويقربنا هذا العمل من هذا الهدف.
وتم تدريب النموذج من خلال مجموعة بيانات مكونة من 7.5 مليار زوج من الجمل عبر 100 لغة تم استخراجها من الويب.
وقالت فيسبوك: هذه الموارد مفتوحة المصدر وتستخدم البيانات المتاحة للجمهور.
وركّز الباحثون على ترجمات اللغات الأكثر شيوعًا وتجنب الترجمات النادرة، مثل السنهالية الجاوية، ثم قاموا بتجميع اللغات في 14 مجموعة مختلفة، بناءً على أوجه التشابه اللغوي والجغرافي والثقافي.
وتم اختيار هذا الأسلوب؛ لأن الأشخاص في البلدان ذات اللغات التي تشترك في هذه الخصائص من المرجّح أن يستفيدوا من الترجمات فيما بينهم.
وتضمنت إحدى المجموعات اللغات الشائعة في الهند، مثل: الهندية والبنغالية والماراثية، وتم استخراج جميع الأزواج اللغوية الممكنة داخل كل مجموعة.
وتم ربط لغات المجموعات المختلفة من خلال عدد صغير من لغات الربط، حيث عملت الهندية والبنغالية والتاميلية في مجموعة اللغة الهندية كلغات ربط للغات الهندية الآرية.
وقام الفريق بعد ذلك بالتنقيب عن بيانات التدريب لجميع مجموعات لغات الربط، مما أوجد مجموعة بيانات مكونة من 7.5 مليار جملة متوازية تتوافق مع 2200 اتجاه ترجمة.
وبالنسبة للغات التي تفتقر إلى بيانات ترجمة عالية الجودة، استخدم الباحثون طريقة تسمى الترجمة العكسية لإيجاد ترجمات تركيبية يمكن أن تكمل البيانات المجمعة.
ونتج عن هذا المزيج من التقنيات أول نموذج ترجمة آلية متعدد اللغات MMT يمكنه الترجمة بين أي زوج من 100 لغة دون الاعتماد على البيانات الإنجليزية.
وقالت فان: عند الترجمة من الصينية إلى الفرنسية، فإن معظم النماذج المتعددة اللغات التي تتمحور حول اللغة الإنجليزية تتدرب عبر بيانات الترجمة من الصينية إلى الإنجليزية وعبر بيانات الترجمة من الإنجليزية إلى الفرنسية، وذلك لأن بيانات التدريب الإنجليزية هي الأكثر توافرًا على نطاق واسع، مضيفة: يتدرب نموذجنا بشكل مباشر عبر بيانات الترجمة من الصينية إلى الفرنسية للحفاظ على المعنى بشكل أفضل.
ويسمى النظام M2M-100، وهو حاليًا مشروع بحثي فقط، لكن يمكن استخدامه في النهاية لترجمة المنشورات لمستخدمي فيسبوك الذين ينشرون المحتوى بأكثر من 160 لغة.
وقالت مساعدة البحث في فيسبوك أنجيلا فان، في تويتة: كان باحثو الذكاء الاصطناعي يعملون على مدار سنوات من أجل بناء نموذج عالمي واحد يمكنه فهم جميع اللغات عبر المهام المختلفة، مضيفة: يساعدنا نموذج واحد يدعم جميع اللغات واللهجات على تقديم خدمة أفضل لعدد أكبر من الأشخاص، وتحديث الترجمات باستمرار، وإيجاد تجارب جديدة لمليارات الأشخاص على قدم المساواة، ويقربنا هذا العمل من هذا الهدف.
وتم تدريب النموذج من خلال مجموعة بيانات مكونة من 7.5 مليار زوج من الجمل عبر 100 لغة تم استخراجها من الويب.
وقالت فيسبوك: هذه الموارد مفتوحة المصدر وتستخدم البيانات المتاحة للجمهور.
وركّز الباحثون على ترجمات اللغات الأكثر شيوعًا وتجنب الترجمات النادرة، مثل السنهالية الجاوية، ثم قاموا بتجميع اللغات في 14 مجموعة مختلفة، بناءً على أوجه التشابه اللغوي والجغرافي والثقافي.
وتم اختيار هذا الأسلوب؛ لأن الأشخاص في البلدان ذات اللغات التي تشترك في هذه الخصائص من المرجّح أن يستفيدوا من الترجمات فيما بينهم.
وتضمنت إحدى المجموعات اللغات الشائعة في الهند، مثل: الهندية والبنغالية والماراثية، وتم استخراج جميع الأزواج اللغوية الممكنة داخل كل مجموعة.
وتم ربط لغات المجموعات المختلفة من خلال عدد صغير من لغات الربط، حيث عملت الهندية والبنغالية والتاميلية في مجموعة اللغة الهندية كلغات ربط للغات الهندية الآرية.
وقام الفريق بعد ذلك بالتنقيب عن بيانات التدريب لجميع مجموعات لغات الربط، مما أوجد مجموعة بيانات مكونة من 7.5 مليار جملة متوازية تتوافق مع 2200 اتجاه ترجمة.
وبالنسبة للغات التي تفتقر إلى بيانات ترجمة عالية الجودة، استخدم الباحثون طريقة تسمى الترجمة العكسية لإيجاد ترجمات تركيبية يمكن أن تكمل البيانات المجمعة.
ونتج عن هذا المزيج من التقنيات أول نموذج ترجمة آلية متعدد اللغات MMT يمكنه الترجمة بين أي زوج من 100 لغة دون الاعتماد على البيانات الإنجليزية.
وقالت فان: عند الترجمة من الصينية إلى الفرنسية، فإن معظم النماذج المتعددة اللغات التي تتمحور حول اللغة الإنجليزية تتدرب عبر بيانات الترجمة من الصينية إلى الإنجليزية وعبر بيانات الترجمة من الإنجليزية إلى الفرنسية، وذلك لأن بيانات التدريب الإنجليزية هي الأكثر توافرًا على نطاق واسع، مضيفة: يتدرب نموذجنا بشكل مباشر عبر بيانات الترجمة من الصينية إلى الفرنسية للحفاظ على المعنى بشكل أفضل.