مفهرس المخطوطات وخاصية التعرف الآلي للكلمات العربية

مكنون

عفا الله عنه وجميع المؤمنين
طاقم الإدارة
السلام عليكم

تم تطوير خاصية التعرف الآلي للكلمات العربية في مفهرس المخطوطات. ويمكن أن أقول أنها دقيقة بدرجة 40% للكتب المطبوعة الواضحة. وهي ليست مناسبة لقراءة الكتابة الناتجة لكنها تتيح البحث بشكل لا بأس به كبداية.
  • يمكن استخدام هذه الأداة من القائمة الرئيسة تحت "محول كتب PDF"
  • هذه الأداة لتحويل كتب PDF آليا إلى كتب متوافقة مع المفهرس بتقنية OCR/Tesseract
  • يجب استعراض مجلد يتضمن مجلدات للمؤلفين (كل مؤلف في مجلد باسمه)
  • يتضمن مجلد كل مؤلف كتب PDF إذا كان الكتاب من جزء واحد (يجب أن يكون اسم ملف PDF باسم الكتاب ثم "+" ثم تصنيفه: حديث، فقه، تاريخ، لغة، عقيدة .....)
  • أو يتضمن مجلد المؤلف من مجلدات فرعية إذا كانت الكتب من عدة أجزاء (لكل كتاب مجلد فرعي باسمه ثم "+" ثم تصنيفه: حديث، فقه، تاريخ، لغة، عقيدة .....). في مجلد كل كتاب ملفات PDF بالأرقام 1 2 3 وهكذا. مثال:

    Untitled.png


  • بعد استيراد الكتب النتيجة في البرنامج كالتالي:

    Capture.PNG


    Capture2.PNG


  • يمكن تحويل جميع المؤلفات لجميع المؤلفين دفعة واحدة
  • الملف الجديد سيكون بنفس اسم الكتاب وفي نفس مجلد المؤلف
  • هناك بعض الإعدادات التي يمكن أن تغير دقة التحويل. يمكن تحريرها (باستخدام أي محرر مثل notepad) قبل بدء البرنامج في الملف setting.properties تحت المجلد setting:
    • ocr_dpi: دقة تحويل صفحة من ملف PDF إلى صورة png. الأرقام المناسبة من 300 إلى 1000. زيادة الرقم يبطئ عملية التحويل لكن قد يحسن معالجة الحروف
    • ocr_pdf2png: محرك تحويل PDF إلى صورة png. الخيارات المتاحة gs أو pdfbox وكلاهما جيد. gs أسرع
    • ocr_traineddata: دقة تحويل صورة png إلى كتابة. الخيارات Fast و Best. الأول سريع وجيد والثاني بطيء وربما أفضل دقة (وليس دوما)

تحميل البرنامج بالكتب السابقة كتجربة

البرنامج من دون كتب

نرجوا تجريب النسخة وإبداء النتائج

والحمدلله رب العالمين
 
التعديل الأخير:
@Zahoor
إذا كنت مهتم لتجريب التعرف الآلي لكتب شرعية بالـ اُردُو‎ فسأقوم بإضافة المعالج لتجربه وتخبرنا بالنتائج
 
نعم انا مستعد لذلک ۔ و سانتظر۔
قمت بتحميل محرك لغة اردو في البرنامج ويفترض أن يعمل الآن عند اختيار لغة اردو عند ابتداء البرنامج ‎. البرنامج على نفس الرابط:

ملاحظات:
  • قمت بتجريب الخاصية على الكتاب في هذا الرابط
  • النتيجة في المرفقات ككتاب جاهز للاستيراد
  • لا أعلم دقة التحويل لعدم علمي باللغة وأرجوا إخبارنا بالملاحظات
  • يمكنك تجريبه على كتب أخرى
  • قمت بتغيير ocr_dpi إلى 900 فلذلك استغرق التحويل حوالي 12 دقيقة (في الحالة العادية سيستغرق حوالي 6 دقائق)

    2.PNG
 

المرفقات

بعد التجربۃ نظرت فی الکتاب و وجدت ان نتیجۃ للاردو حول فقط ٪5 صحیح۔ و ھذا لیس بکاف ۔ ولعل الوجہ الخط الذی یستخدم فی الکتب الاردیۃ لیس سواء کالکتب العربیۃ ۔ شکراً لمحاولۃ للکتب الاردیۃ ۔
 
عودة
أعلى