في Rememberizer.ai، دفعتنا التزامنا الثابت بتقديم خدمات تضمين المعرفة الدقيقة والفعالة إلى إجراء تقييم شامل لمختلف نماذج تضمين المتجهات. كان الهدف هو تحديد النموذج الذي يتماشى بشكل أفضل مع متطلباتنا ويعزز قدراتنا إلى آفاق جديدة.
مجموعة البيانات الخاصة بنا
شمل عملية التقييم مجموعتين مختلفتين من البيانات: مجموعة البيانات A، وهي مجموعة من النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي ومن غير المحتمل أن تمت مواجهتها خلال تدريب نماذج التضمين الحالية، ومجموعة البيانات B، وهي مجموعة متخصصة من براءات الاختراع الأمريكية المعروفة بتعقيدها ومصطلحاتها المتخصصة في المجال. سمحت لنا إضافة مجموعة البيانات A بتقييم أداء النماذج على بيانات جديدة وصناعية، بينما قدمت مجموعة البيانات B اختبارًا قويًا للتعامل مع اللغة التقنية المعقدة.
أمثلة:
استعلام: البطاريق، الهامستر، إبريق الشاي، بيلاروس، فوضى
وثيقة الهدف:
```
في أرض بعيدة حيث كانت البطاريق تحكم الهامستر وتحدد أباريق الشاي السياسة الخارجية، كانت بيلاروسيا لاعب سيرك صامت، ترقص وسط فوضى التحالفات المعقدة. كانت البطاريق ترفرف بلا فائدة، تتجادل حول الغداء في الساعة 1997—"هل يجب أن يكون كابتشينو أم تعاون متنكر كحبوب البن؟"
"لا تتمنى الهندباء لحلف الناتو،" ردد الصنبور في احتجاج وجودي. ومع ذلك، كانت الإبريق تمايز، تحدد الإحداثيات المكانية بدقة استنادًا إلى التناقض. أحذية الباليه الكونية تعيد تزويد السلالم للأجهزة الشفافة المكلفة بالسلام أو ربما الفواق. ومع ذلك، حدثت مشاحنات عندما ألقى الهامستر الميتافيزيقي، المتقد بالوقود بعد القطبية، الشكوك على القنافذ التي تتنكر لزيادة الأرباح الانتخابية. أخفت بيلاروسية عازف الغيتار الخاص بها، في انتظار المصطلح غير ذي الصلة صفر—الذي، وفقًا للقطع الأثرية القرود المتلألئة التي تطحن الحشائش المعرفية، هو فقاعات رائعة تظهر.
```
استفسار: محول طاقة كهربائي بنمط تبديل وطرقه التشغيل.
وثيقة الهدف:
```
رقم النشر: 20240146201
عنوان الاختراع: محول طاقة كهربائي بتبديل وضع التشغيل وإجراءاته
ملخص: محول الطاقة الإلكتروني بتبديل الوضع (
مقدم الطلب: Differential Power, SL
مخترعون:
- كوبوس ماركيز، خوسيه أنطونيو
```
عملية القياس المرجعي
لكل نموذج للتضمين قيد التقييم، قمنا بتضمين كل من البيانات واستعلامات البحث. ثم قمنا بحساب مقياس الاسترجاع@k، حيث يتراوح k من 1 إلى 10. وقد أتاح لنا هذا النهج تقييم قدرة النماذج على استرجاع النتائج ذات الصلة ضمن أعلى k نتائج بحث، وهو عامل حاسم في تقديم خدمات تضمين المعرفة بدقة وكفاءة.
تم إجراء تجاربنا في بيئة متحكم بها لضمان نتائج متسقة وموثوقة. استخدمنا دقة النقطة العائمة 16 لجميع النماذج، مستفيدين من القدرة الحاسوبية لوحدة معالجة الرسومات NVIDIA GeForce RTX 4070. تم الحصول على النماذج نفسها من مستودع Hugging Face، وهو منصة معروفة وموثوقة لنماذج معالجة اللغة الطبيعية الحديثة.
تقييم النتائج
تشير المخططات أدناه إلى مقياس Recall@K لعدة نماذج على كل مجموعة بيانات.
في هذا السياق، يقوم نموذج التضمين بتحويل بيانات النص إلى تمثيل رقمي في فضاء عالي الأبعاد بحيث تكون قطع النص المشابهة قريبة من بعضها البعض. لتقييم جودة هذه التضمينات، غالبًا ما نحتاج إلى التحقق من مدى قدرة النموذج على استرجاع النصوص ذات الصلة من مجموعة البيانات بناءً على تضميناتها.
إليك كيفية عمل Recall@K في إعدادات هذه:
- توليد التضمين: يتم تحويل كل قطعة نصية في مجموعة البيانات إلى تضمين باستخدام النموذج.
- استعلام واسترجاع: يتم حساب تدوين النص الاستعلامي المعطى. ثم يقوم النظام باسترجاع أعلى K من العناصر النصية الأكثر تشابهًا من مجموعة البيانات استنادًا إلى تدويناتها.
- تحقق من الصلة: يتم فحص العناصر المسترجعة مقابل حقيقة أساسية لمعرفة عددها المتعلق فعليًا بالاستعلام.
- حساب الاستدعاء: يتم حساب Recall@K بعد ذلك كنسبة عدد العناصر ذات الصلة المسترجعة ضمن أفضل K نتيجة إلى العدد الإجمالي للعناصر ذات الصلة في مجموعة البيانات.
على سبيل المثال، لنفترض أن لدينا مجموعة بيانات حيث تحتوي كل قطعة من النص على نظائر ذات صلة معروفة. إذا كان هناك 10 نصوص ذات صلة في مجموعة البيانات لنص استعلام معين واسترجع النموذج 3 نصوص ذات صلة ضمن أفضل 5 نتائج (K=5)، فإن Recall@5 سيكون 3/10 = 0.3 أو 30%.
تساعد هذه المقياس في فهم مدى قدرة نموذج التضمين على التقاط المعنى الدلالي للنص ووضع النصوص المتشابهة بالقرب من بعضها البعض في فضاء التضمين. يشير ارتفاع Recall@K إلى أن النموذج فعال في تضمين النص بحيث يمكن استرجاع العناصر ذات الصلة بسهولة ضمن أعلى K نتائج. يمكن أن يكون هذا مفيدًا بشكل خاص في تطبيقات مثل استرجاع المستندات والإجابة على الأسئلة وأنظمة التوصية، حيث يكون من الضروري العثور على النص ذي الصلة بسرعة.
للحفاظ على التركيز على النماذج ذات التطبيق العملي، قمنا بتصفية النماذج ذات قيم الاسترجاع المنخفضة جداً، حيث إن الاسترجاع هو مقياس حاسم لضمان تضمين المعرفة بدقة. ثم تم تقييم النماذج المتبقية ضمن نطاق استرجاع مكبر من 0.5 إلى 1 على المحور العمودي، مما يسمح بمقارنة أكثر دقة.
طوال هذه العملية، كان هناك نموذج واحد يبرز باستمرار: intfloat/e5-large-v2 من Microsoft. أظهر هذا النموذج أداءً متفوقًا عبر كلا مجموعتي البيانات، متفوقًا على نماذجنا الحالية وتقديم نتائج تعادل النماذج الرائدة في الصناعة من OpenAI. إن قدرته على التعامل مع مجموعات بيانات متنوعة ومعقدة، بما في ذلك النصوص الجديدة التي تم إنشاؤها بواسطة الذكاء الاصطناعي في مجموعة البيانات A، بدقة وكفاءة هي شهادة على قوته وإمكاناته في تعزيز قدراتنا في دمج المعرفة.
الرسم البياني يوضح أداء الاستدعاء للنماذج التي تم تقييمها، حيث نخرج بأحد النماذج كمتصدر واضح. أداءه القوي على مجموعة البيانات A يبرز قابليته للتكيف مع البيانات غير المرئية، وهي عامل حاسم في مشهد إدارة المعرفة المتطور باستمرار.
بينما تعتبر المقاييس الكمية ضرورية، فقد أخذنا أيضًا في الاعتبار الآثار الواقعية لتبني هذا النموذج الذي يحقق أداءً عالياً. إن أدائه المتفوق يُترجم إلى تحسين الدقة والكفاءة في خدمة تضمين المعرفة لدينا، مما يمكننا من تقديم رؤى أكثر قيمة لمستخدمينا، حتى عند التعامل مع بيانات جديدة أو اصطناعية.
نحن متحمسون لدمج النموذج المتميز في نظامنا ونتطلع إلى تحسينات كبيرة في قدرتنا على تحويل البيانات غير المهيكلة إلى رؤى منظمة، بغض النظر عن مصدرها أو تعقيدها. يمثل هذا القرار علامة فارقة في سعينا المستمر نحو التميز والتزامنا بالاستفادة من التكنولوجيا المتطورة لتقديم حلول إدارة المعرفة من الدرجة الأولى.
بينما نبدأ هذا الفصل الجديد مع النموذج البارز، ندعوكم للانضمام إلينا في هذه الرحلة من الابتكار والاكتشاف. ترقبوا التحديثات بينما نواصل الدفع بحدود ما هو ممكن في إدارة المعرفة المدفوعة بالذكاء الاصطناعي، حتى في مواجهة البيانات الجديدة والتحديات.