آر-شيف

من ويكي أضِف
اذهب إلى التنقل اذهب إلى البحث

يهدف مشروع آر-شيف الى تجميع وتحليل المحتوى الرقمي للوصول إلى آراء الناس عن الأحداث الجارية. عن طريق تجميع المحتوى العربي من مواقع التواصل الاجتماعي والمدونات. كما تهدف لتقديم الادوات والخدمات اللازمة للجهود البحثية في هذا المجال, التي تفيد الأكاديميّين و الناشطين السياسيّين و الفنّانين و الصحافيّين، الخ...

قام آر-شيف بتجميع كمية كبيرة من المحتوى الرقمي العربي والانجليزي منذ 2008. واستطاعت تجميع المحتوى المتعلق بالثورات في المنطقة العربية لتكون مصدر لهذا الأرشيف

بحلول يناير 2012 قامت أداة أرشيف لتجميع التغريدات بأرشفة ما يزيد عن 284 مليون تغريدة ‏‏ من أهداف المشروع تطوير واستخدام التطبيقات اللازمة لتجميع المحتوى العربية من على شبكات التواصل الاجتماعي وتحليله لاستخراج الأنماط بصورة فورية. عن طريق استخدام محرك يزيد من خبرته وذكائه كلما قام بتحليل كميات اكبر من المحتوى الرقمي

‏== الفئات المستهدفة والنطاق الجغرافي ‏== في هذه المرحلة يهدف ارشيف الى التركيز على دعم اللغة العربية تمهيدا لدعم باقي اللغات الشرقية.

سيخدم كل المهتمين بمعرفة نبض الشارع العربي واراؤه المختلفة عما يحدث في المنطقة العربية أو حول العالم. من باحثين اقليميّين و غيرهم في العالم، إلى أكاديميّين، ناشطين سياسيّين، فنّانين، و حتى إعلاميّين في وسائل الاعلام المختلفة.

يشمل النطاق الجغرافي جميع أنحاء العالم فعلاً، مع التركيز طبعاً على العالم العربي، وبالأخص على البلاد المتأثّرة بالأحداث الأخيرة.

‏== مراحل المشروع المختلفة وخطة العمل ‏==

  1. بناء المنظومة الالكترونية اللي يمكنها تخزين المفردات والجمل باللغة العربية. والمرادفات ودلالات كل منها.
  2. استخراج هذه المفردات والجمل من التغريدات التي قام أرشيف بتجميهعا لاضافتها الى المنظومة الالكترونية
  3. تصنيف كل من البيانات في القاموس وتحديد مدلولاتها لاعطاء المنظومة الخبرة اللازمة لفهم المحتوى
  4. استخدام هذه المنظومة لتحليل وابراز نتائج المحتوى العربي وابراز معانيه بصورة فورية
  5. جعل هذه الخدمة متاحة الى غيرنا من الفرق والمؤسسات، و بناء واجهة تفاعليّة تتيح للمستخدمين الوصول الى البيانات "crowdsourced data" والإمكان من تحليل هذه البيانات لغاياتهم البحثيّة المختلفة.

ما يميّز أرشيف هو قدرة المشروع على دمج الذكاء البشري بذكاء الحاسوب. ينطوي نهجنا في تحليلات وسائل الاعلام الاجتماعية على السماح لبرنامج الكمبيوتر بتجميع البيانات وتحديد الأنماط في الوقت المباشر "real-time"، فنظام الحوسبة "swarm computing" لدينا يكتسب أكثر ذكاء في الوقت الذي يعمل على بناء المعجم الخاصة به. في الخطوة التالية نفتح قاعدة البيانات إلى الشعوب الناطقة بالعربية على الانترنت ليتمكّنوا من تعيين السمات بشكل صحيح لهذا المعجم الجديد -للإستفادة من الخبرات البشرية والحاسوبية في آن واحد. ففي حين ركز الآخرون على نتائج تحليل البيانات بشكل الاتجاهات والأرقام ، نحن نركز على إظهار ما يعنيه حقا، على الدلالة الحقيقيّة للعبارات. هدفنا الرئيسي هو تحقيق اختراقات حقيقية في فهم دلالات الكلمات في المفهوم العام، لإعطاء أصوات الناس على الانترنت الفرصة لتكون مسموعة و مفهومة بمعناها و سياقها الحقيقي. ‏

مكان وشركاء التنفيذ ‏

سوف يتم معظم العمل و التطوير في بيئة إلكترونية "virtual environment" على ملقمات سحابة أرشيف "R-Shief Cloud". وبفضل القدرة على العمل عن بعد على شبكة الانترنت ، سوف تعمل مؤسِّسة أرشيف ليلى شيرين صقر ومدير التكنولوجيا إيان جونز من مقر اقامتهما في لوس انجليس في كاليفورنيا، في حين أنّ مهندس البرمجيّات محمود سعيد سيعمل من مقرّه في الاسكندرية في مصر . وسوف يجتمع الفريق في الاسكندرية في مصر حوالي مايو 2012 للعمل بمجهود مكثّف على البرمجة والترميز الإلكتروني فترة 3 أسابيع. ‏

روابط


معلومات مهمة يمكن مزجها

أدوات تحليل النصوص العربية أرشيف نبذة مع نمو المحتوى الرقمي على الإنترنت, يظهر جليا الاحتياج لوجود أدواة لتحليل هذا المحتوى بشكل مميكن قادر على تحليل محتوى بهذا الحجم. هناك العديد من الأدوات المتعلقة بتحليل النصوص قيد البحث والتطوير، خصوصا للمحتوى من اللغة الانجليزية والعديد من اللغات الأخرى. تعمل ارشيف من سنوات على جمع وحفظ المحتوى العربي من الشبكة. وتهدف إلى بناء محرك تحليل للنصوص العربية بشكل ذكي لتحقيق اقصى فائدة معلوماتية منه. هذا المشروع يشمل البحث والتطوير المتعلق ببناء هذا المحرك مجالات تحليل النصوص هناك العديد من الطرق المختلفة لتحليل النصوص لأغراض مخلتفة. من المجالات المعنية في هذا المشروع:

Tagging توصيف النص بإشارات مرجعية
تحليل النص واستخراج الكلمات اللي يمكنها ان توصف النص وتستخدم كإشارة مرجعية له
Named Entity Recognition استخراج الكيانات
ويعتبر ايضا من أنواع توصيف النص. مع الفرق عن النوع السابق أن هذا النوع يعتمد على معرفة مسبقة بالكيانات والتي تكون متاحة في شكل معجم
Semantic Analysis التحليل الدلالي
ويعني باستخدام قواعد اللغة لفهم العلاقات المختلفة بين الكيانات المعنية في النص.
Sentiment Analysis تحليل المشاعر
ويركز هذا النوع على محاولة استنباط موقف ومشاعر الكاتب للنص قيد التحليل. وله تطبيقات كثيرة في فهم اراء ومشاعر الجمهور
أداة أرشيف لاستخراج الكيانات العربية
حصلت أرشيف على دعم من برنامج برنامج أضف أنتم في 2013 لتطوير أداة استخراج الكيانات للنصوص العربية. وجعلها متاحة في واجهة برمجية تمكن الأخرين من استخدامها بصور متعددة تعتمد على تطبيقاتهم.

http://rshief.org/textanalysis/arabicentityextractionapidocumentation

أطلق النموذج الأولي من الأداء والواجهة البرمجية على موقع أرشيف. كما تم تطوير واجهة برمجية تسمح بتجربة الأداة http://rshief.org/textanalysisentityextractiondemo بشكل مباشر للتعرف على جودة التحليل حتى يمكن للمستخدمين التعرف على الأداة وملاحظة التقدم والتحسن في جودة التحليل في اثناء انشغالنا بالتطوير

أداة استخراج الكيانات المتاحة حاليا مبنية على قاعدة بيانات ألنسخة العربية من الموسوعة الحرة ويكيبيديا. هدفنا هو تطوير أداة تستطيع بشكل دوري ان تحدث من القاعدة المعرفية التي تستخدمها عن طريق تحميل وتحليل النسخ المحدثة دوريا من قاعدة بيانات الموسوعة الحرة

البحث المتعلق بأدوات معالجة النصوص كانت الخطوة الأولى التي اتخذناها لبناء المحرك هي بحث ما تم تطويره في كل من الأوساط الأكاديمية والصناعية. معظم ما تم الوصول إليه يخدم النصوص الانجليزية. ومع ذلك فقد بذلت جهود عديدة لتوفير حلول ذات جودة عالية لمعالجة النصوص العربية. من هذه الجهود:

Stanford CoreNLP مشروع معالجة اللغة العربية كجزء من مكتبة ستانفورد لمعالجة اللغات الطبيعية
يركز هذا المشروع على خاصية ترجمة النصوص من لغة لأخرى، كما يأخذ في الاعتبار احصائيات بناء النص وتوصيف النصوص
Arabic WordNet AWN
يتبع هذا المشروع الاسلوب المتبع في نظيره للغة الانجليزية واستطاع ان يحدد العديد من المفردات ومرادفاتها في اللغات الأخرى
GATE كما جرت محاولات لبناء أدوات تحليل للنصوص العربية بناء على اطار General Architecture for Text Engineering

كما قام طه زروقي وأخرون بتطوير عدد من الادوات لمعالجة النصوص العربية لأزالة علامات الجر والكلمات غير ذات الدلالة الى جانب تشكيل النصوص

وقام محمد عطية من جامعة جورج واشنطن ببناء قائمة من الوسومات مستخرجة من الموسوعة الحرة يمكن استخدامها لبناء المعجم المستخدم في بناء أداء لاستخراج الكيانات. وقام بنشر كيفية قيامه بنائه هذه القائمة

تهدف أرشيف الى بناء محرك تحليل النصوص العربية على مجموعة من الأجزاء:

أداة استخراج الكيانات. والتي ستمكن من توصيف النصوص بصورة ادق من التوصيف العام
قام فريق أرشيف ببناء النموذج الأولي وجعله متاحة عن طريق واجهة برمجية وواجهة مستخدم لتسهل على المتابعين تجربته بحريه
التحليل الدلالي للنص
عن طريق تحليل استخدام قواعد اللغة وعناصر بناء الجملة حتى يتسنى تحديد العلاقات بين الكيانات المعنية في النص.
تحليل المشاعر
وهو الخطوة الاخيرة في المحرك ويهدف الى معرفة رأي الجمهور في موضوع معين عن طريق تحليل النصوص المنشوية من هذا الجمهور على الشبكة والوصول الى استنباطات بصورة عملية

يبقى هدف أرشيف بناء محرك شامل حتى يفتح المجال لبناء أنظمية ذكية عالية الجودة تختص بتحليل وفهم المحتوى العربي.