بعد إطلاقي لدعوة المساعدة في تنقيح بيانات الإكسل البالغة أكثر من ١٤٠ ألف سطر، والتي أخذتها تجريفًا من مواقع تقنية عربية...

أطلقت دعوتي هذه في تويتر ولينكدن ومدونتي هنا ويمكن الاطلاع عليها لمزيد من التفاصيل..

وبعد فترة من الزمن وجدت الكثير يظهر اهتمامه.. البعض يتساءل عن ماهية الموضوع، والبعض يعطي بعض النصائح التقنية. ولكل مهتم جزيل الشكر..

والبعض الآخر شارك أكثر من ذلك ..وساعدني مساعدة حقيقية وسأذكر الجميع في آخر التدوينة عرفانًا مني بمساعدتهم الحقيقة في العمل..

جاءتني نصيحة من المهندس حمزة القدسي، وهو طالب دكتوراه يمني يدرس في فرنسا، قال لي أن أستخدم أدوات NLTK وpandas وغيرها أدوات تنقيح البيانات..

بدأت بتعلم هذه الأدوات عن طريق البحث عن Crash Course وأضيف عليها الموضوع الذي أريد تعلمه، لأجد فيديو أو اثنين بحدود ساعة تقريبًا.. وهكذا أكسر الجليد بيني وبين المفاهيم التقنية الجديدة..

وبعد أخذي لأساسيات مكتبة pandas ومكتبة NLTK، بدأت التحسس في ملف الإكسل عن طريق دفاتر جوبيتر jupyter notebook.. وقد كنت أعرف القليل عن لغة برمجة Python عن طريق موقع Learn X in Y Minutes.

ولكن ما زالت مهاراتي في كل ما سبق ضعيفة للغاية وأستعين بمحرك البحث في كل خطوة.. وحصلت على نصائح من الدكتور طه زروقي والأستاذ معتز وغيرهم.

وجاءني الأخ المهندس زكريا الصلاحي وهو مبرمج يمني مقيم حاليا في الفلبين، وكان قد ساهم معنا في مبادرة Yemeni Open Source لنشر المشاريع البرمجية مفتوحة المصدر من الشباب اليمني. وقام الصديق زكريا بمعظم العمل في دفاتر جوبيتر مثل هذا على جوجل كولاب.

وهكذا بعد عدة دفاتر وعدة محاولات مثل حذف الكلمات الموقوفة (stop words)، والخلايا التي تحتوي على مدخل مكون من حرف واحد أو حرفين، وغيرها من المحاولات..

ثم جربت مكتبة Spacy للتعرف على نوع الكلمات من الحقول الإنجليزية.. وكنت أريد حذف أسماء الأعلام (brands)، وحذف العملات والتواريخ وكل الكلمات التي لا نحتاجها..

وبعد كل هذه المحاولات أنقصنا عدد الأسطر من ١٤٠ ألف إلى ١٠٧ ألف تقريبًا..

ولكن مع ذلك كان العمل اليدوي المطلوب كبيرًا جدًا بعد ذلك.. وفوق ذلك أن البيانات غير جاهزة لاستخدامها في أي مشروع لأنها غير مرتبة على الإطلاق..

لذا... غيرت اتجاه الخطة.. وعدت للخلف... جدًا..

وقررت أن أبدأ بالنقل اليدوي للمصطلحات التقنية مباشرة من المقالات التقنية وعلى رأسها أكاديمية حسوب، وكل ذلك بمساعدة المتطوعين الذين أرجو أن تكون أنت منهم..

ولك أن تتساءل لماذا؟ الأسباب كالتالي:

1- أن العمل الآلي لتنظيف البيانات لم يكن بالمستوى المطلوب والمعرفة بنوع الكلمات في نصوص محدودة غير دقيق حتى بالاستعانة بمكتبات الذكاء الاصطناعي.. وقد قال لي الأستاذ Mohamed Ali Jamaoui أن علي أن أضيف الجملة كاملة بجانب المصطلح الأجنبي والعربي لكي تتعرف مكتبات معالجة اللغة الحاسوبية مثل NLTK على الترجمة ومدى دقتها.. إلا أنني لم يكن في حسباني هذا عند تجريف البيانات لأول مرة، وعُدّلت البيانات كثيرًا حتى وصلت إلى ما هي عليه..

2- أنني كنت بحاجة إلى عمل يدوي كبير جدًا حتى مع هذه المساعدات الآلية.. فلا مناص من العمل اليدوي..

3- أن العمل السابق أفقدني ميزة كبيرة وهي إضافة الاختصارات والنقل الحرفي للمصطلحات وأسماء الأعلام التي احتفظت بها في نسختي الحالية من العمل اليدوية.

4- أن العمل اليدوي الحالي وإن كان بطيئًا فالبيانات من الدقة بحيث أستطيع أخذها مباشرة لأي مشروع مباشرة.. مهما كانت البيانات ناقصة,, عكس البيانات السابقة التي لم يكن بالإمكان إضافتها لأي مشروع تقني حتى الاكتمال من تنقيح كامل البيانات وهذا سيتطلب عملًا كبيرًا قد أتوقف بسببه عن الاستمرار في المشروع نهائيًا..

وبعد الحديث عن الأسباب سأتحدث عن الخطة الحالية، وهي العمل اليدوي بمساعدة المتطوعين لأخذ المصطلحات من موقع أكاديمية حسوب.. وقد وضّحت آلية العمل في هذين الفيديوهين:

الفيديو الأول

الفيديو الثاني

ومن أراد التطوع معي في المساهمة في جمع هذه البيانات لتكون نواة قاموس تقني ببيانات متاحة ومرخّصة برخصة المشاع الإبداعي فليراسلني على أي من مواقع التواصل الاجتماعي المذكورة في الصفحة الرئيسية لموقعي هذا أو على بريدي الإلكتروني هذا

الآن لدي متطوعان اثنان هما Naser Dakhel و Ghadeer Jamel. شكرًا جزيلا لهما وأرجو المزيد من المتطوعين لإسراع العمل..

وفي الأخير أحب أن أشكر كل من اهتم وتعاون في الموضوع مرتبون أبجديا:

أرجو ألا أكون قد نسيت أي أحد ممن تعاون وساعد.. والمعذرة على ذلك..