عندي ملف إكسل أخذت محتواه من تجريف (scraping) لمقالات تقنية عربية عديدة.. والهدف هو بناء قاموس تقني.
المشكلة هي أن ملف الإكسل هذا كبير جدًا (140 ألف سطر) وعندما عملت عليه لوحدي وجدت المجهود كبيرًا جدًا وأحتاج إلى تعاون لإكمال العمل..
لقد بنيت الScrapper باستخدام نهج بسيط: عندما يواجه الScrapper كلمة إنجليزية داخل المقالة العربية، يلتقط هذه الكلمة الإنجليزية مع كلمتين أو ثلاث قبلها.
لقد حصلت على كمية هائلة من البيانات ولكن كثيرا من هذه البيانات ليس مفيدًا مثل:
- كلمات غير مفيدة من سياقات الجمل في المقالات
- كلمات إنجليزية غير تقنية
- بيانات مكررة
- العلامات التجارية والمقالات والكتب وأسماء الأشخاص باللغة الإنجليزية
- كلمات إنجليزية غير قابلة للترجمة مثل الكلمات المفتاحية للغات البرمجة وأسماء التقنيات نفسها
- إلخ
لاحظ أن التكرار الذي أتحدث عنه ليس تكرارا بسيطا في كل الصفوف بل هو تكرار مع بعض الحروف والكلمات التي لا معنى لها والتي ستكتشفها عيون البشر ولكن ليس البرنامج.
هل هناك أي فكرة مفيدة يمكنني استخدامها لإكمال هذه المهمة بأسهل ما يمكن؟
أحتاج المساعدة في هذه الجزئية لأن العمل اليدوي الفردي مرهق وغير عملي.
نصحني بعض الأشخاص باستخدام مكتبة pandas python .. لا أعرف هل يمكن أن تساعدني في هذا أم لا.
أعتقد أنه حتى لو تمكنت بطريقة ما من القيام بعمل جيد برمجيًا لتنظيف البيانات، فأنا بحاجة إلى مساعدة بشرية يدوية...
لمن أراد التعاون تطوعًا سواء بالعمل أو النصيحة أو طريقة لحل هذه المشكلة أو تخفيفها فليتواصل معي على مواقع التواصل لأشرح له الطريقة وآلية العمل.. وشكرًا