ALLaM 7B

Allam7b
الذكاء الاصطناعي

ALLaM 7B

مقدمة

تُعد منصة “ALLaM” (Arabic Large Language Model) من المبادرات الرائدة التي أطلقتها سدايا (الهيئة السعودية للبيانات والذكاء الاصطناعي) بهدف تعزيز تقنيات اللغة العربية والإنجليزية. تتميز المنصة بتقديم models لغوية متقدمة تُساهم في تطوير تطبيقات الذكاء الاصطناعي في المنطقة.

نظرة عامة عن  ALLaM 7B Model

 ALLaM 7B هو Large Language Model يحتوي على 7 مليار parameter، تم تطويره خصيصًا لدعم كل من اللغتين العربية والإنجليزية. يعتمد model ال على بنية Transformer من نوع autoregressive decoder-only، وده بيجعله قادرًا على فهم وتوليد النصوص بكفاءة في كلتا اللغتين.

تكوين ال model

تم تدريب ALLaM 7B  باستخدام منهجية pretraining from scratch، والتي تتضمن مرحلتين رئيسيتين:

  1. المرحلة الأولى : تدريب ال model على 4  تريليون token باللغة الإنجليزية، باستخدام مصادر متنوعة مثل Dolma-v1 وPile وThe Stack وPeS2o وPubMed وDM-Math وStackExchange .
  2. المرحلة الثانية : تدريب model ال على 1.2 تريليون token مزيج من الإنجليزية والعربية، شملت مصادر مثل الويب والأخبار والكتب وويكيبيديا (أكثر من مليون مقال) والترجمات الآلية.

تم جمع البيانات العربية من مصادر متعددة، مع التركيز على تنقية البيانات لضمان الجودة، زي إزالة المستندات القصيرة والوثائق المكررة.

طرق ال Tokenization واختلافها عن  Llama

تُعتبر عملية ال Tokenization من التحديات الرئيسية في Multilingual Models. في البداية، كانت models  زي  Llama تعتمد على Tokenization موجهة نحو اللغة الإنجليزية، مما أدى إلى تقسيم غير فعال للكلمات عند التعامل مع لغات أخرى زي العربية. لحل هذه المشكلة، اعتمد فريق تطوير ALLaM 7B  نهجًا مزدوجًا:

  1. تدريب Tokenization مخصص للعربية : تم تدريب Tokenization متخصص للغة العربية باستخدام مجموعة بيانات كبيرة من النصوص العربية.
  2. دمج Tokenization :  تم دمج الtokenization العربي مع الtokenization الأصلي للغة الإنجليزية عن طريق إضافة الرموز الجديدة الخاصة بالعربية إلى الtokenization، مما أدى إلى تقليل معدل “fertility rate” (عدد الtokens  الناتجة عن كلمة واحدة) وتحسين كفاءة الtokenization.

والطريقة دي أدت إلى تحسين كبير في أداء ال model  عند التعامل مع النصوص العربية مقارنة بmodels  أخرى زي Llama.

استخدام ALLaM 7B عبر Hugging Face

للاستفادة من ALLaM 7B عبر منصة Hugging Face، يمكن اتباع الخطوات التالية:

1.تثبيت الlibraries الضرورية:

    2.تحميل model و ال (Tokenizer) :

    3.إعداد النص وإجراء التوليد:

    الخاتمة

    تُعد منصة ALLaM و ALLaM 7B  خطوة هامة نحو تعزيز تقنيات اللغة العربية والإنجليزية في مجال الذكاء الاصطناعي. من خلال منهجية التدريب المتقدمة وطرق الtokenization المحسّنة، يُقدّم ال model أداءً مميزًا في معالجة النصوص باللغتين. توفير model ال عبر منصة Hugging Face  يُسهّل وصول الباحثين والمطورين إليه، مما يُساهم في تطوير تطبيقات ذكية تلبي احتياجات المستخدمين.