مفهرس المخطوطات وخاصية التعرف الآلي للكلمات العربية

مكنون

Administrator
طاقم الإدارة
السلام عليكم

تم تطوير خاصية التعرف الآلي للكلمات العربية في مفهرس المخطوطات. ويمكن أن أقول أنها دقيقة بدرجة 40% للكتب المطبوعة الواضحة. وهي ليست مناسبة لقراءة الكتابة الناتجة لكنها تتيح البحث بشكل لا بأس به كبداية.
  • يمكن استخدام هذه الأداة من القائمة الرئيسة تحت "محول كتب PDF"
  • هذه الأداة لتحويل كتب PDF آليا إلى كتب متوافقة مع المفهرس بتقنية OCR/Tesseract
  • يجب استعراض مجلد يتضمن مجلدات للمؤلفين (كل مؤلف في مجلد باسمه)
  • يتضمن مجلد كل مؤلف كتب PDF إذا كان الكتاب من جزء واحد (يجب أن يكون اسم ملف PDF باسم الكتاب ثم "+" ثم تصنيفه: حديث، فقه، تاريخ، لغة، عقيدة .....)
  • أو يتضمن مجلد المؤلف من مجلدات فرعية إذا كانت الكتب من عدة أجزاء (لكل كتاب مجلد فرعي باسمه ثم "+" ثم تصنيفه: حديث، فقه، تاريخ، لغة، عقيدة .....). في مجلد كل كتاب ملفات PDF بالأرقام 1 2 3 وهكذا. مثال:

    Untitled.png


  • بعد استيراد الكتب النتيجة في البرنامج كالتالي:

    Capture.PNG


    Capture2.PNG


  • يمكن تحويل جميع المؤلفات لجميع المؤلفين دفعة واحدة
  • الملف الجديد سيكون بنفس اسم الكتاب وفي نفس مجلد المؤلف
  • هناك بعض الإعدادات التي يمكن أن تغير دقة التحويل. يمكن تحريرها (باستخدام أي محرر مثل notepad) قبل بدء البرنامج في الملف setting.properties تحت المجلد setting:
    • ocr_dpi: دقة تحويل صفحة من ملف PDF إلى صورة png. الأرقام المناسبة من 300 إلى 1000. زيادة الرقم يبطئ عملية التحويل لكن قد يحسن معالجة الحروف
    • ocr_pdf2png: محرك تحويل PDF إلى صورة png. الخيارات المتاحة gs أو pdfbox وكلاهما جيد. gs أسرع
    • ocr_traineddata: دقة تحويل صورة png إلى كتابة. الخيارات Fast و Best. الأول سريع وجيد والثاني بطيء وربما أفضل دقة (وليس دوما)

تحميل البرنامج بالكتب السابقة كتجربة

البرنامج من دون كتب

نرجوا تجريب النسخة وإبداء النتائج

والحمدلله رب العالمين
 
التعديل الأخير:
@Zahoor
إذا كنت مهتم لتجريب التعرف الآلي لكتب شرعية بالـ اُردُو‎ فسأقوم بإضافة المعالج لتجربه وتخبرنا بالنتائج
 
نعم انا مستعد لذلک ۔ و سانتظر۔
قمت بتحميل محرك لغة اردو في البرنامج ويفترض أن يعمل الآن عند اختيار لغة اردو عند ابتداء البرنامج ‎. البرنامج على نفس الرابط:

ملاحظات:
  • قمت بتجريب الخاصية على الكتاب في هذا الرابط
  • النتيجة في المرفقات ككتاب جاهز للاستيراد
  • لا أعلم دقة التحويل لعدم علمي باللغة وأرجوا إخبارنا بالملاحظات
  • يمكنك تجريبه على كتب أخرى
  • قمت بتغيير ocr_dpi إلى 900 فلذلك استغرق التحويل حوالي 12 دقيقة (في الحالة العادية سيستغرق حوالي 6 دقائق)

    2.PNG
 

المرفقات

  • دين حق+دعوة.biuf
    267.4 KB · المشاهدات: 217
بعد التجربۃ نظرت فی الکتاب و وجدت ان نتیجۃ للاردو حول فقط ٪5 صحیح۔ و ھذا لیس بکاف ۔ ولعل الوجہ الخط الذی یستخدم فی الکتب الاردیۃ لیس سواء کالکتب العربیۃ ۔ شکراً لمحاولۃ للکتب الاردیۃ ۔
 
عودة
أعلى