مفهرس المخطوطات وخاصية التعرف الآلي للكلمات العربية

مكنون · 20 أكتوبر 2020

السلام عليكم

تم تطوير خاصية التعرف الآلي للكلمات العربية في مفهرس المخطوطات. ويمكن أن أقول أنها دقيقة بدرجة 40% للكتب المطبوعة الواضحة. وهي ليست مناسبة لقراءة الكتابة الناتجة لكنها تتيح البحث بشكل لا بأس به كبداية.

يمكن استخدام هذه الأداة من القائمة الرئيسة تحت "محول كتب PDF"
هذه الأداة لتحويل كتب PDF آليا إلى كتب متوافقة مع المفهرس بتقنية OCR/Tesseract
يجب استعراض مجلد يتضمن مجلدات للمؤلفين (كل مؤلف في مجلد باسمه)
يتضمن مجلد كل مؤلف كتب PDF إذا كان الكتاب من جزء واحد (يجب أن يكون اسم ملف PDF باسم الكتاب ثم "+" ثم تصنيفه: حديث، فقه، تاريخ، لغة، عقيدة .....)
أو يتضمن مجلد المؤلف من مجلدات فرعية إذا كانت الكتب من عدة أجزاء (لكل كتاب مجلد فرعي باسمه ثم "+" ثم تصنيفه: حديث، فقه، تاريخ، لغة، عقيدة .....). في مجلد كل كتاب ملفات PDF بالأرقام 1 2 3 وهكذا. مثال:
بعد استيراد الكتب النتيجة في البرنامج كالتالي:
يمكن تحويل جميع المؤلفات لجميع المؤلفين دفعة واحدة
الملف الجديد سيكون بنفس اسم الكتاب وفي نفس مجلد المؤلف
هناك بعض الإعدادات التي يمكن أن تغير دقة التحويل. يمكن تحريرها (باستخدام أي محرر مثل notepad) قبل بدء البرنامج في الملف setting.properties تحت المجلد setting:
- ocr_dpi: دقة تحويل صفحة من ملف PDF إلى صورة png. الأرقام المناسبة من 300 إلى 1000. زيادة الرقم يبطئ عملية التحويل لكن قد يحسن معالجة الحروف
- ocr_pdf2png: محرك تحويل PDF إلى صورة png. الخيارات المتاحة gs أو pdfbox وكلاهما جيد. gs أسرع
- ocr_traineddata: دقة تحويل صورة png إلى كتابة. الخيارات Fast و Best. الأول سريع وجيد والثاني بطيء وربما أفضل دقة (وليس دوما)

تحميل البرنامج بالكتب السابقة كتجربة

https://maknoon.com/download/ArabicIndexerWin64.tar.gz

البرنامج من دون كتب

https://maknoon.com/download/ArabicIndexerWin64_wb.tar.gz

نرجوا تجريب النسخة وإبداء النتائج

والحمدلله رب العالمين

Zahoor · 23 ديسمبر 2020

ماشاء اللہ بارک اللہ قبل اللہ منک ھذہ الخدمۃ

مكنون · 23 ديسمبر 2020

@Zahoor
إذا كنت مهتم لتجريب التعرف الآلي لكتب شرعية بالـ اُردُو‎ فسأقوم بإضافة المعالج لتجربه وتخبرنا بالنتائج

Zahoor · 25 ديسمبر 2020

مكنون قال:
@Zahoor
إذا كنت مهتم لتجريب التعرف الآلي لكتب شرعية بالـ اُردُو‎ فسأقوم بإضافة المعالج لتجربه وتخبرنا بالنتائج

نعم انا مستعد لذلک ۔ و سانتظر۔

مكنون · 26 ديسمبر 2020

Zahoor قال:
نعم انا مستعد لذلک ۔ و سانتظر۔

قمت بتحميل محرك لغة اردو في البرنامج ويفترض أن يعمل الآن عند اختيار لغة اردو عند ابتداء البرنامج ‎. البرنامج على نفس الرابط:

https://maknoon.com/download/ArabicIndexerWin64_wb.tar.gz

ملاحظات:

قمت بتجريب الخاصية على الكتاب في هذا الرابط
النتيجة في المرفقات ككتاب جاهز للاستيراد
لا أعلم دقة التحويل لعدم علمي باللغة وأرجوا إخبارنا بالملاحظات
يمكنك تجريبه على كتب أخرى
قمت بتغيير ocr_dpi إلى 900 فلذلك استغرق التحويل حوالي 12 دقيقة (في الحالة العادية سيستغرق حوالي 6 دقائق)

Zahoor · 3 يناير 2021

بعد التجربۃ نظرت فی الکتاب و وجدت ان نتیجۃ للاردو حول فقط ٪5 صحیح۔ و ھذا لیس بکاف ۔ ولعل الوجہ الخط الذی یستخدم فی الکتب الاردیۃ لیس سواء کالکتب العربیۃ ۔ شکراً لمحاولۃ للکتب الاردیۃ ۔

مفهرس المخطوطات وخاصية التعرف الآلي للكلمات العربية

مكنون

عفا الله عنه وجميع المؤمنين

Zahoor

New member

مكنون

عفا الله عنه وجميع المؤمنين

Zahoor

New member

مكنون

عفا الله عنه وجميع المؤمنين

المرفقات

Zahoor

New member