Whisper

Automatic Speech Recognition(ASR)

التعرف التلقائي على الكلام هو القدرة على تحويل الكلام البشري إلى نص مكتوب. والفكرة هي أخذ جزء من الصوت المسجل ونسخه إلى كلمات مكتوبة بنفس اللغة، أو ترجمته أولاً إلى لغة أخرى ثم نسخه إلى تلك اللغة المستهدفة الجديدة. Whisper هي سلسلة شائعة جدًا من نماذج التعرف التلقائي على الكلام والترجمة مفتوحة المصدر من OpenAI.

نماذج Whisper:

حاليا في وقت كتابة هذه المقالة، تتلقى Whisper Model أكثر من 10مليون عملية تنزيل شهريًا على Hugging Face

تم تدريب Whisper على 680 ألف ساعة (أو 77 عامًا!) من بيانات الصوت المصنفة.

يقدم الجدول ملخصًا Whisper Models الحالية المتاحة. هنركز على أحدث نموذج large-v3 في هذه المقالة، والذي يُظهر زيادة كبيرة في الدقة بنسبة 10-20% مقارنة بـ large-v2

فهم OpenAI Whisper:

نظرة عامة على Whisper:

يعد OpenAI Whisper نظامًا للتعرف التلقائي على الكلام (ASR) يتميز بتحويل اللغة المنطوقة إلى نص مكتوب. يتم تدريبه على مجموعة كبيرة supervised dataset متعددة اللغات ومتعددة المهام، ويعرض أداءً رائعًا عبر مجموعة من التطبيقات، مما يجعله أداة متعددة الاستخدامات للمطورين والشركات والباحثين.

ميزات Whisper

⦁ الدعم المتعدد اللغات (Multilingual Support): يتميز Whisper بقدرات متعددة اللغات، ,وده الي بيجعله مناسبًا لمجموعة متنوعة من اللغات واللهجات.

⦁ القدرة على التكيف (Adaptability): يمكن ضبطه بدقة ليناسب حالات الاستخدام المحددة، وده يسمح للمطورين بتخصيص أدائه لمتطلباتهم .

⦁ دقة عالية High Accuracy: يحقق Whisper أداءً متطورًا من حيث دقة ال transcribe ، مما يجعله خيارًا موثوقًا به لتطبيقات مختلفة.

⦁ المتانة Robustness: تم تصميم الmodel للتعامل مع مدخلات الصوت الصاخبة والمتنوعة(noisy and diverse audio inputs )، مما يضمن أداءً ثابتًا في سيناريوهات العالم الحقيقي.

تطبيقات OpenAI Whisper

⦁ نسخ المكالمات( Call Transcription) :

واحدة من أشهر استخدامات Whisper هي نسخ المكالمات. مع اعتماد الشركات أكتر على المكالمات المسجلة عشان يحصلوا على insights، وجود أداة نسخ دقيقة بقى حاجة مهمة جدًا. قدرة Whisper على نسخ الكلام بدقة عالية بتخليه أداة قوية لمراكز الاتصال وخدمات دعم العملاء وأي شركة بتعتمد على البيانات الصوتية.

⦁ المساعدون الصوتيون Voice Assistants:

ممكن دمج Whisper بسهولة في المساعدين الصوتيين، وده بيحسن قدرتهم على فهم أوامر المستخدم والرد عليها بدقة. وده بيخليه خيار مثالي للمطورين اللي شغالين على التطبيقات والأجهزة اللي بتتفاعل صوتيًا.

⦁ ميزات إمكانية الوصول Accessibility Features:

بالنسبة للناس اللي عندهم ضعف سمع، ممكن استخدام Whisper في تطوير تطبيقات بتوفر نسخ فوري للمحادثات المنطوقة، وده بيزيد من الشمولية وسهولة الوصول.

Whisper Architecture

نظرة عامة على بنية Whisper:

بنية المشفر وفك التشفير (Encoder-Decoder Structure) : يستخدم Whisper بنية مشفر وفك تشفير تعتمد على transformer:

Encoder : وظيفته إنه يعالج الصوت عشان يحوله لتمثيل بيقدر النظام يفهمه.
Decoder: يستخدم التمثيل اللي بيخرجه ال encoder عشان يولد النسخ النصية، يعني بيحول الصوت لكتابة باستخدام نمذجة اللغة..

بنية الـ Encoder و Decoder في الـ Transformers، زي ما بيستخدمها Whisper، بتتكون من جزأين رئيسيين:

Encoder:

بيأخذ الصوت المدخل (واللي بيكون في شكل log-mel spectrogram) وبيحوله لrepresentation بيقدر النظام يفهمه ويستخدمه.

Encoder Layers : كل layer في ال encoder تتكون من جزئين رئيسيين:

آلية الانتباه الذاتي (Self-attention mechanism):

دي بتساعد النظام يركز على أجزاء مختلفة من الصوت ويفهم العلاقة بينها، يعني مثلاً لو في كلمات مرتبطة ببعض، النموذج هيتعلم من الأنماط دي.

شبكة تغذية أمامية (Feed-forward network):

اللي بتعمل على تحسين وتعديل التمثيل بشكل أفضل.

ال model بيستخدم الآلية دي عشان يقدر يربط بين أجزاء الصوت المختلفة بشكل دقيق.

فك التشفير (Decoder):

فك التشفير بيحول ال representation اللي بيخرجه الencoder إلى نص مكتوب.

Masked Self-Attention:

في مرحلة decoding ، بيتم إخفاء الـ Self-attention عشان ال model ما يشوفش الرموز المستقبلية في output sequence ، وده بيسمح بإنشاء نص بشكل رجعي تلقائي (autoregressive text generation).

Cross-Attention:

كل layer في decoder تحتوي على Cross-attention mechanism, ، ودي بتخلي ال model يركز على الأجزاء المهمة من إخراج الencoder ، وبالتالي بيقدر يولد نص متماسك يناسب الصوت المدخل.

رموز الإخراج (Output Tokens):

decoder بيولد الرموز (tokens) واحدة تلو الأخرى لحد ما يكتمل النسخ.

الـ مشفر و فك التشفير بيشتغلوا مع بعض، حيث أن الـ مشفر بيفهم محتوى الصوت وفك التشفير بيحول التمثيل ده إلى النص المناسب.

Advantages of Whisper’s Transformer Encoder-Decoder Design:

التبعيات طويلة المدى Long-Range Dependencies: يتيح self-attention في encoder وdecoder لـ Whisper التقاط التبعيات طويلة المدى، وهو أمر بالغ الأهمية لفهم السياق في كل من الصوت (التجويد، والتوقفات) واللغة (بنية الجملة).

Autoregressive Decoding:

إنشاء الرموز الانحداري التلقائي ( autoregressive tokens) في Whisper بيساعد في توليد نصوص طبيعية وسلسة. ده بيتم عن طريق استخدام الtokens اللي تم إنشاؤها قبل كده والتركيز عليها عشان يتم بناء النص بشكل متتابع ومترابط، يعني النص بيتكون خطوة بخطوة بناءً على الكلمات اللي اتكتبت قبل كده.

Scalability and Parallel Processing :

آلية الانتباه (attention mechanism) في الـ Transformer وطبقات التغذية الأمامية (feedforward layers) بتسمح بمعالجة متوازية بشكل أكثر كفاءة مقارنةً بال models القائمة على الـ RNN. ده يعني إن Transformer قادر على تدريب ال model واستخراج النتائج بشكل أسرع لأن كل جزء من البيانات بيتعامل معاه في نفس الوقت، بدل ما يكون فيه معالجة تسلسلية زي ما بيحصل في الـ RNN. ده بيخلي Transformer أكثر فعالية في التعامل مع كميات كبيرة من البيانات في وقت أقل.

المهام التي يمكن لـ Whisper القيام بها:

⦁ التعرف التلقائي على الكلام (ASR):

المهمة الرئيسية لـ Whisper هي تحويل الصوت المنطوق إلى نص. ا modelده دقيق جدًا في التعرف على الكلام بلغات ولهجات متعددة، وده بيخليه مفيد جدًا في تطبيقات النسخ في مجالات مختلفة، زي ملاحظات الاجتماعات أو الترجمة المغلقة.

⦁ ترجمة الكلام:

يمكن لـ Whisper ترجمة الصوت المنطوق من لغة إلى أخرى (على سبيل المثال، ترجمة الكلام الإسباني إلى نص إنجليزي). وده مفيد للتطبيقات متعددة اللغات زي ترجمة الفيديو الدولية وخدمات الترجمة في الوقت الفعلي.

⦁ النسخ متعدد اللغات:

يدعم Whisper ال transcribe بلغات متعددة بشكل مباشر، وده بيمكّنه من إنتاج transcription بلغات. زي الإنجليزية والإسبانية والفرنسية وغيرهم . وده مفيد بشكل خاص للمحتوى متعدد اللغات أو إمكانية الوصول الدولي.

⦁ اكتشاف اللغة:

Whisper بيتميز بقدرة مدمجة على اكتشاف لغة المحتوى المنطوق. يعني إنه بيحدد اللغة في الصوت بشكل تلقائي، وده شيء مهم جدًا عشان يقدر يتحول بشكل دقيق إلى وضع النسخ أو الترجمة المناسب.

⦁ وضع علامة زمنية Timestamping:

Whisper قادر على إنشاء علامات زمنية لكل كلمة أو عبارة، وده مفيد جدًا في تطبيقات زي ترجمة الفيديو، لأن التوقيت الدقيق مهم عشان النص يتزامن مع الصوت بشكل صحيح.

⦁ متانة الضوضاء والقدرات المتعددة اللغات:

تم تدريب Whisper على مجموعة متنوعة من الصوت، , وجزء من الداتا الي اشتغل عليعا كان فيها noise، وده بيخليه أكثر قدرة على مقاومة الضوضاء الخلفية وظروف الصوت المعقدة مقارنة بالعديد من الmodels الأخرى.

Whisper for Call Transcription with Hugging Face

Hugging Face هي منصة مشهورة لمشاركة NLP Models ، وتوفر واجهة سهلة للاستخدام مع OpenAI Whisper. لدمج Whisper في مشروع النسخ.

الخطوة 1: تثبيت transformers Hugging Face

pip install transformers

from transformers import pipeline
whisper_transcriber = pipeline("automatic-speech-recognition", model="whisper-large")

الخطوة 2: قم بتحميل نموذج Whisper من Hugging Face

audio_file_path = "path/to/your/audio/file.wav"
transcription = whisper_transcriber(audio_file_path)
print(transcription)

الخطوة 3: نسخ المكالمة

audio_file_path="path/to/your/audio/file-way"

Data Profiling

Growth Data Challenge

Excel Challenge – Online Retail