النص غير المنظم موجود في كل مكان: رسائل البريد الإلكتروني، والمقالات الإخبارية. لكن أجهزة الكمبيوتر تجد صعوبة في فهمه. إذا أدخلت جملة "اشترى إيلون ماسك تويتر في كاليفورنيا"، فإن الكمبيوتر يرى مجرد أحرف.

التعرف على الكيانات المسماة (NER) هو مجال فرعي من معالجة اللغات الطبيعية (NLP) يحل هذه المشكلة. يقوم بتحديد وتصنيف المعلومات الأساسية.

يقوم مستخرج الكيانات المسماة بمسح النص تلقائياً واستخراج:

  • PERSON: أسماء الأشخاص.
  • ORG: الشركات والوكالات.
  • GPE/LOC: الدول والمدن.
  • DATE: التواريخ.

كيف يعمل؟

نماذج NER لا تبحث فقط في القاموس. تستخدم السياق. "آبل تراقبك" مقابل "التفاحة لذيذة". في الجملة الأولى، آبل هي منظمة لأنها تقوم بفعل.

حالات الاستخدام

  • أتمتة دعم العملاء: تصنيف التذاكر بناءً على المنتجات المذكورة.
  • تصنيف المحتوى: تجميع المقالات حسب الموضوع.
  • الخصوصية: تحديد الأسماء لإزالتها (تجهيل البيانات) قبل المشاركة.