OCR

WhatsApp Image 2024-10-13 at 18.44.29_bd27f35c
الذكاء الاصطناعي

OCR

التعرف الضوئي على الحروف (OCR): التقنية التي تحوّل الصور إلى نصوص قابلة للقراءة

في المقالة دي، هنستعرض تقنية التعرف الضوئي على الحروف (OCR) اللي غيرت الطريقة اللي بنتعامل بيها مع النصوص والصور. التقنية دي بتسمح بتحويل النص الموجود جوه الصور، المستندات الممسوحة ضوئيًا، وحتى الصور الفوتوغرافية، إلى نصوص يُمكن قراءتها أو تعديلها. لو عندك صورة بتحتوي على نص، ال OCR بتقدر تخلّي النص ده قابل للنسخ والتحرير بسهولة. تعالوا نعرف أكتر عن التقنية دي، تاريخها، وازاي بتشتغل.

ليه تقنية OCR مهمة؟

قبل ظهور OCR، كانت الطريقة الوحيدة لتحويل المستندات الورقية إلى ملفات رقمية هي إعادة الكتابة يدويًا. كانت العملية بطيئة جدًا ومعرّضة للأخطاء. مع OCR، بقت العملية أسرع بكتير وبدقة عالية، وده ساهم في تسهيل مهام كتير زي أرشفة المستندات وتحليل البيانات.

نظرة سريعة على تاريخ تقنية OCR

السبعينيات: في سنة 1974، طور راي كورزويل أول نظام OCR متعدد الخطوط، اللي قدر يتعرف على النصوص المكتوبة بأي خط. النظام ده كان مخصص لمساعدة المكفوفين عن طريق تحويل النص إلى صوت.

الثمانينيات: شركة Xerox تبنّت التقنية وبدأت في تسويقها بشكل أوسع لتحويل المستندات الورقية إلى تنسيق رقمي.

دلوقتي، OCR مش بس تقنية بتحول النصوص؛ لكنها بقت تُستخدم في كتير من التطبيقات زي قراءة جوازات السفر، التعرف على إشارات المرور، وحتى رقمنة الكتب التاريخية.

إزاي OCR بيشتغل؟

عشان تفهم التقنية دي، خلينا نعرف الخطوات اللي بتمر بيها الصور عشان تتحول لنصوص:

  • معالجة الصور:
    • الخطوة الأولى هي تجهيز الصورة من خلال تحسين جودتها، إزالة الnoise، وضبط التباين عشان النص يبقى واضح.
  • تحليل النصوص:
    • OCR بتقسم الصورة لأجزاء صغيرة (Pixels)، وبتحدد الأنماط اللي بتدل على الحروف أو الكلمات.
  • تحويل النص:
    • باستخدام خوارزميات متقدمة، OCR بتتعرف على الأحرف والكلمات، وبتحولها لنصوص رقمية قابلة للقراءة.
اشهر ادوات ال OCR
1. Pytesseract


⦁ Tesseract بيشتغل على 5 خطوات :

  • اول خطوة image Preprocessing و الي بيحصل هنا ان الصورة بتتحاول لصيغة منسبة لل OCR عن طريق حاجة زي ال Binarization او Thresholding.
  • تاني خطوة هي ان Tesseract بيتعرف على السطور و الكلمات عشان يحدد هو هشتغل على اية.
  • تالت خطوة و الأهم بيتم التعرف على كل الحروف عن طريق استخدام Model متدرب على العملية دي.
  • اخر خطوة هي ال Postprocessing و هنا Large Language Model بيتدخل عشان يصلح اي اخطاء موجوده في النص .

⦁ مميزات Tesseract:

  • مرونة Tesseract انه يشتغل على لغات و طرق كتابة جديدة.
  • متوفر ببلاش و مصدره مفتوح و ده بيسمح ان ممكن يستخدم في اي حاجة.
  • خفيف يعني مش معتمد على ادوات كتير عشان يشتغل.

⦁ عيوب Tesseract:

  • لازم المستند او الصورة المدخلة تكون بدقة عالية و منسبة.
  • صعب انه يتعرف على النصوص و الكلام المكتوب بخط او ترتيب معقد.
كيفية الاستخدام :


⦁ تنزيل ال library باستخدام pip .

⦁ قراءة الصورة ثم استخدام image_to_string function من pytesseract .

2. EasyOCR :

⦁ ازاي EasyOCR بيشتغل :

⦁ EasyOCR بيستخدم ال Deep Learning و خصوصا ال Convolutional Neural Networks (CNNs) و ال Recurrent Neural Networks (RNNs) عشان يحدد و يتعرف على النصوص.

  • تحليل الصور :
    • بيحدد اماكن النصوص بستخدام نماذج زي ال CRAFT.
    • بتعرف النصوص بستخدام طريقة مبنيه على التسلسل.

⦁ مميزات EasyOCR :

⦁ بيدعم اكتر من 80 لغة.
⦁ استخدام ال Deep Learning الي بيسمح للتعامل مع نصوص معقده.
⦁ سهل التشغيل عن طريق ال API.

  • عيوب EasyOCR :
    • بيحتاج انظمة قوية مقارنة ب Tesseract.
كيفية الاستخدام :

⦁ تنزيل ال library باستخدام pip .

⦁ قراءة الصورة ثم استخدام function readtext من easyocr.

تطبيقات OCR في الحياة اليومية

الترجمة وتحليل النصوص: زي تحويل النصوص المكتوبة بخط اليد إلى نص رقمي يمكن البحث فيه.
تحويل الكتب والمستندات: OCR بتستخدم في رقمنة المستندات القديمة وجعلها قابلة للبحث زي ملفات PDF .
التعرف على جوازات السفر والإيصالات: بتستخدم في المطارات لتسريع الإجراءات وفي الشركات لاستخراج البيانات تلقائيًا من الفواتير.

كيف تطورت التقنية؟

مع ظهور تقنيات ال Deep Learning ، بقت نماذج OCR أكتر دقة. دلوقتي بتقدر تتعامل مع النصوص المكتوبة بخط اليد، تعرف تخطيط المستندات، وتتعرف على الكائنات داخل الصور باستخدام آليات زي:

التعرف على الأنماط: باستخدام ال Neural Networks ، OCR بتحدد الأنماط المكانية في النصوص.
تقسيم الصورة: في حالة النصوص المتداخلة، التقنية بتقسم النصوص لمربعات محددة وتتعامل مع كل جزء على حدة.

مستقبل OCR :

التقنية في تطور مستمر، خصوصًا مع الاعتماد على الذكاء الاصطناعي في تحسين الدقة وتقليل الأخطاء. OCR دلوقتي جزء أساسي في كتير من التطبيقات الحديثة، وبيفتح المجال لإمكانيات أكتر في المستقبل زي تحليل النصوص بلغات متعددة في نفس الوقت، وتحسين معالجة النصوص المكتوبة بخط اليد

الخلاصة

التعرف الضوئي على الحروف (OCR) هو واحدة من التقنيات اللي ساهمت في تحسين الإنتاجية وتوفير الوقت. من رقمنة المستندات القديمة إلى تحويل النصوص العادية لنصوص رقمية قابلة للتحرير

اترك أفكارك هنا