بناء قاعدة معرفية لتطبيقات RAG
عند إنشاء تطبيق RAG، تواجه خيارًا أساسيًا بشأن مكان تخزين المعلومات واسترجاعها. يمكنك الاستثمار في رسم بياني معرفي شامل يلتقط الكيانات والعلاقات بهيكل دقيق، أو اتباع نهج أكثر تقليدية ببناء قاعدة معرفية مبنية على مجموعات المستندات والبحث المتجهي.
تتميز الرسوم البيانية المعرفية بنمذجة العلاقات ودعم التفكير متعدد القفزات. ومع ذلك، هناك حجج قوية للبدء بقاعدة معرفية لتطبيقات RAG.
في هذه المقالة سنرشدك خلال غرض قاعدة المعرفة من حيث RAG، وكيفية تصميمها وتنفيذها، وأفضل الممارسات التي يمكنك اتباعها لضمان الأداء والدقة مع نمو المحتوى الخاص بك.
نظرة عامة على تقنية استرجاع التوليد المعزز (RAG)
استرجاع الجيل المعزز أو RAG هو مجرد ملف LLM استخدام مصدر خارجي، مثل قاعدة المعرفة، لتوليد استجابات ذات صلة بالسياق. يتكون RAG من مكونين:
- جهاز استرداد لجلب المعلومات ذات الصلة من مصدر خارجي
- مولد لتجميع تلك المعلومات في استجابة متماسكة
عند الاستعلام، يسترجع النظام البيانات ذات الصلة من مصدر متصل ويستخدمها لتوليد النتائج. يساعد هذا النهج على التغلب على التحيزات الشائعة في نماذج التوليد التقليدية، ويُمكّنها من تقديم إجابات مُحدثة أو تفاصيل خاصة بمجال معين.
لبناء نظام فعال حقا خط أنابيب RAGتحتاج إلى قاعدة معرفية ممتازة. فهي ما يحدد المحتوى الذي يمكن للنموذج استخدامه وسرعة استرجاعه.
ما هي قاعدة المعرفة في RAG؟
قاعدة المعرفة (KB) هي مخزن للبيانات أو المعلومات ذات الصلة التي يمكنك الرجوع إليها عندما تحتاج إلى العثور على إجابات للأسئلة الشائعة أو استكشاف المشكلات وإصلاحها.
في سياق RAG، عادةً ما تكون قاعدة المعرفة عبارة عن مجموعة من النصوص أو أجزاء من المستندات. بخلاف قواعد البيانات التقليدية التي تخزن البيانات المنظمة، تحتوي قاعدة المعرفة على محتوى مكتوب بلغة طبيعية بشكل أساسي، مثل أدلة منتجات مؤسستك أو وثائقها.
هذا المحتوى مُفهرس للبحث القائم على المعنى. هذا يعني أن نظام RAG يبحث ويستخرج المقاطع التي تتناول نفس المواضيع أو الأفكار الواردة في سؤالك، حتى لو لم تستخدم هذه المقاطع الكلمات نفسها. ويحقق ذلك بتحويل محتوى اللغة الطبيعية (باستخدام نماذج ذكاء اصطناعي متقدمة مثل المحولات) إلى متجهات عالية الأبعاد.
لماذا تعتبر قاعدة المعرفة أمرًا أساسيًا للغاية بالنسبة لـ RAG
بدون قاعدة معرفية، لا يمكن استرجاع أي شيء. سيعتمد المولد افتراضيًا على معلماته المُدرَّبة مسبقًا، مما يعني أنه قد يُنتج محتوى وهميًا.
قواعد المعرفة أساسيةٌ لأنها تُشكّل ذاكرةً لطلاب الماجستير في القانون. إليكم ثلاثة أمورٍ رئيسيةٍ لا يُمكن لطلاب الماجستير في القانون تحقيقها بدون قاعدةٍ معرفية:
- أساس:توفر قاعدة المعرفة المتخصصة سياقًا واقعيًا لتقليل الهلوسة من نموذج اللغة.
- تكييف المجال:تتيح قاعدة المعرفة لـ RAG "حقن" المعرفة الخاصة بالمجال دون الحاجة إلى إعادة تدريب النموذج أو ضبطه بدقة.
- توقيت:تمكن قواعد المعرفة من الحصول على إجابات محدثة من خلال استرداد المحتوى المنشور مؤخرًا، حتى لو تم تدريب النموذج الأساسي منذ فترة طويلة.
باختصار، بدون قاعدة معرفية، يصبح نظام RAG مجرد مولد نصوص آخر - محدود، وعام، وغير جدير بالثقة.
هل يجب عليك أن تستثمر كل شيء في الرسم البياني المعرفي لـ RAG؟
مع كل هذه الضجة حول الرسوم البيانية المعرفية لتطبيقات RAG، من السهل التساؤل عما إذا كانت حقًا الحل الأمثل لتأسيس برامج الماجستير في القانون. إذًا، لماذا نبدأ بقاعدة معرفية قبل الاستثمار في الرسوم البيانية المعرفية؟
فيما يلي بعض الأسباب الأخرى:
بساطة الفهرسة القائمة على المتجهات
أولاً، معظم معلومات العالم موجودة في نصوص غير منظمة أو شبه منظمة، مثل التقارير ورسائل البريد الإلكتروني وصفحات الويكي وغيرها من الوثائق. يتطلب تحويل كل هذه المواد إلى مخطط بياني أساسي جهدًا مكثفًا في توضيح علاقة التعرف على الكيانات، والتنظيم المستمر.
على النقيض من ذلك، تتيح لك قاعدة المعرفة القائمة على المتجهات فهرسة أجزاء من النص مباشرةً حسب معناها. يمكنك الانتقال من الملفات الخام إلى مستودع قابل للبحث في غضون ساعات بدلاً من أسابيع.
تحديثات Agile
ثانيًا، تستفيد من تحديثات سلسة. عند وصول مستندات جديدة، ما عليك سوى تحويلها إلى تضمينات وإضافتها إلى فهرسك. تتجنب الطبيعة الهشة لمخطط بياني جامد، والذي يجب إعادة استيعابه وشرحه كلما تغيرت المواضيع أو ظهرت أنواع كيانات جديدة. باستخدام نهج قائم على المتجهات، يمكنك التضحية ببعض أغنى الدلالات العلائقية مقابل وقت أسرع بكثير لتحقيق القيمة وتعقيد تشغيلي أقل.
أداء قابل للتطوير لتطبيقات RAG الشائعة
أخيرًا، تتوسع محركات بحث المتجهات بسلاسة. فهي توزع متجهات التضمين على الشظايا، وتستفيد من خوارزميات أقرب جار تقريبي، مما يحافظ على سرعة الاسترجاع حتى مع نمو مجموعتك إلى مئات الملايين من المقاطع.
بالنسبة للعديد من حالات استخدام RAG الشائعة، مثل دعم العملاء أو مساعدة العاملين في مجال المعرفة أو أبحاث الامتثال، فإن التكلفة الإجمالية لإدارة رسم بياني كبير تفوق المكاسب الهامشية في الدقة التي قد تحققها من عمليات عبور الرسم البياني المعقدة.
كيفية بناء قاعدة المعرفة لـ RAG
فيما يلي الخطوات التي يتعين عليك اتباعها لبناء قاعدة المعرفة الخاصة بك:
الخطوة 1: فهم مجال عملك وأسئلة المستخدمين
هناك بعض الأسئلة الأساسية التي يجب طرحها قبل التعامل مع أي بيانات:
- ما هي الأسئلة التي يجب أن يجيب عليها نظام RAG؟ كن دقيقًا بشأن المواضيع والمجالات ومستوى التفاصيل المطلوبة.
- من هو الجمهور المستهدف وما نوع الإجابات التي يحتاجونها؟ سيؤثر هذا على لغة المعلومات المُدرجة وتعقيدها ونوعها.
- ما هي مصادر البيانات الموثوقة؟ تعتمد دقة نظام RAG على موثوقية المعلومات المُستقاة وصحتها.
- ما هي الكيانات والمفاهيم الرئيسية؟ حدد المواضيع الأساسية التي ستتمحور حولها قاعدة معارفك.
على سبيل المثال، إذا كنت تُنشئ مساعد دعم لمنصة برمجياتك، فمن المرجح أن يهتم المستخدمون بالبحث عن معلومات حول ميزات منتجك، أو خطوات دمجه، أو طرق استكشاف الأخطاء وإصلاحها. بفضل هذه المعلومات الأساسية، ستحصل على توجيه واضح بأن قاعدة معارفك تحتاج إلى محتوى مثل أدلة المستخدم، والأسئلة الشائعة، وسجلات التغييرات، ومناقشات المنتديات كمصادر أساسية.
الخطوة 2: جمع البيانات وتنظيفها
بمجرد أن تتضح لديك طبيعة وعمق المحتوى اللازم لقاعدة معارفك، ستحتاج إلى آلية لاستيعاب البيانات ذات الصلة وتنسيقها بصيغة نص عادي. هذا مهم لأن النص العادي هو اللغة العالمية لخطوط إنتاج ماجستير إدارة الأعمال، ويعتمد كل شيء - من التقسيم إلى أجزاء والتضمين إلى التوليد - على نظافته وتنسيقه الجيد. أي شيء آخر يزيد من التشويش ويقلل من الصلة وجودة الاستجابة.
يمكنك استخراج نص عادي من تنسيقات ملفات مختلفة، بما في ذلك المستندات والصور وملفات الصوت باستخدام Text Converter في Asteraمنصة استخراج البيانات. تحديدًا، يمكنك استخدام Text Convert لاستخراج النص من:
- المستندات والملفات مثل ملفات PDF، وDOC/DOCX، وXLS/XLSX، وما إلى ذلك.
- الصور باستخدام التعرف الضوئي على الحروف (OCR)
- الملفات المستندة إلى HTML
- ملفات MD وMARKDOWN وMKD وMKDN وMDWN وMDOWN
تذكر أن الهدف هنا هو إنشاء مجموعة نصية موحدة، بغض النظر عن أنواع الملفات الأصلية.
الخطوة 3: تقسيم البيانات إلى أجزاء
بما أن نماذج LLM محدودة في نافذة السياق، فإنها لا تستطيع معالجة سوى كمية محددة من النصوص في وقت محدد. هذا يعني ضرورة معالجة المستندات الكبيرة مسبقًا وتقسيمها إلى "أجزاء" أصغر وأكثر قابلية للإدارة، تتناسب مع حدود النموذج الرمزية، أي يسهل استيعابها. تُسمى هذه العملية التجزئة أو التقسيم.
Asteraيمكن لـ Text Splitter تقسيم النص عبر تقنيات التقسيم الشائعة الاستخدام، مثل التقسيم التكراري، والتقسيم القائم على الجملة، والتقسيم القائم على HTML، والتقسيم القائم على الفاصل.
الخطوة 4: إنشاء تضمينات لكل جزء (المتجه)
يجب تحويل كل جزء من النص إلى متجه رقمي - قائمة أرقام تُمثل رياضيًا المعنى الدلالي لذلك الجزء، أو بمعنى آخر، محتوى النص على المستوى المفاهيمي. على سبيل المثال، قد تبدو عبارتا "إعادة تشغيل النظام" و"إعادة تشغيل الجهاز" مختلفتين، لكن نماذج التضمين تستطيع تمييز ظهورهما غالبًا في سياقات متشابهة، وتُخصص لهما متجهات متشابهة.
تُسمى هذه العملية بالتضمين المتجهي، وهي ما يسمح لنظام RAG بمقارنة واسترجاع المعلومات ذات الصلة بناءً على المعنى وليس الصياغة الدقيقة.
يمكنك استخدام كائن بناء التضمينات داخل Asteraواجهة المستخدم الخاصة بـ:
- التقط معنى النص الخاص بك باستخدام تضمينات المتجهات الدلالية
- إجراء مطابقة تعتمد على الكلمات الرئيسية باستخدام متجهات TS
الخطوة 5: تخزين القطع في قاعدة بيانات متجهة
لكي تكون أجزاء البيانات، مع تضميناتها وبياناتها الوصفية، متاحةً لنظام RAG، عليك تخزينها داخل قاعدة بيانات متجهة (مخزن متجهات). هذا مهم لأن قاعدة بيانات المتجهات تُمكّن من:
- بحث التشابه: يُقارن الاستعلامات بالتضمينات المُخزّنة مُسبقًا لأجزاء المستندات. الهدف هو تحديد الأجزاء ذات المعاني المُتشابهة بسرعة.
- تصفية البيانات الوصفية: تتيح لك قواعد بيانات المتجهات الحديثة أيضًا تصفية النتائج حسب البيانات الوصفية، مثل المصدر أو التاريخ أو نوع المستند. هذا ما يُمكّن نظام RAG الخاص بك من استرجاع المحتوى ذي الصلة، ليس فقط من السياق الصحيح، بل أيضًا من المحتوى ذي الصلة، وهو أمر بالغ الأهمية للدقة والموثوقية في حالات الاستخدام المؤسسي. على سبيل المثال، إذا سأل مستخدم عن سياسة نُشرت مؤخرًا، يمكنك إعطاء الأولوية للفقرات من أحدث المستندات.
تتضمن أمثلة قواعد بيانات المتجهات ما يلي:
- قواعد بيانات المتجهات المُدارة (السحابة): Pinecone، وZilliz Cloud (Milvus)، وGoogle Vertex AI Vector Search، وWeaviate Cloud
- قواعد بيانات المتجهات المستضافة ذاتيًا: Milvus، ChromaDB، Qdrant
- مكتبات فهرس المتجهات والبحث كخدمة: FAISS وAzure Cognitive Search
عادةً، الخطوة التالية هي تنفيذ خط أنابيب الاسترجاع. مع ذلك، يتعلق هذا ببناء تطبيق RAG، بينما نركز في هذه المقالة على بناء قاعدة المعرفة.
أفضل الممارسات التي يجب وضعها في الاعتبار
تُسهم قاعدة المعرفة النظيفة والموثوقة بشكل كبير في تحسين أداء نظام RAG الخاص بك، خاصةً وأن محتواك سيستمر في النمو على الأرجح. ستساعدك أفضل الممارسات التالية في تصميم قاعدة المعرفة.
- قم بتقسيم المحتوى حسب المعنى وليس الطول.
قسّم مستنداتك إلى أقسام أو فقرات واضحة بدلًا من تقسيمها حسب عدد الرموز. هذا يحافظ على سلامة السياق ويُحسّن صلة الإجابات المُسترجعة. - حافظ على التنسيق متسقًا عبر جميع المصادر.
استخدم نفس البنية للعناوين والقوائم والمسافات حتى يتمكن خط الأنابيب الخاص بك من التعامل مع المحتوى بشكل موحد. هذا يقلل من الأخطاء أثناء التجميع والاسترجاع. - قم بوضع علامة على كل جزء باستخدام البيانات الوصفية المفيدة.
أضف علامات مثل الموضوع والمصدر والتاريخ والنوع لتسهيل استرجاعها لاحقًا بشكل مُصفّى ومُحدّد النطاق. كما تُساعد البيانات الوصفية في تنظيم المحتوى وإدارته. - إزالة النسخ المكررة والإصدارات القديمة.
تأكد من ظهور كل جزء من المحتوى مرة واحدة فقط، وعدم بقاء الإصدارات القديمة في الفهرس. هذا يُجنّب الالتباس ويُحسّن موثوقية الإجابات. - استخدم مصادر الإدخال النظيفة والموثوقة.
ابدأ بوثائق مكتوبة جيدًا ودقيقة للحفاظ على قاعدة بيانات قوية. فالمدخلات ذات الجودة الرديئة تؤدي إلى استرجاع ضعيف وتوليد ضعيف.
متى ننتقل إلى الرسم البياني المعرفي
على الرغم من أن قاعدة المعرفة ستخدمك جيدًا في المراحل المبكرة، إلا أنه يمكنك إضافة رسم بياني يشير إلى نفس المستندات المخزنة في فهرس المتجه الخاص بك عندما تبدأ حالة الاستخدام الخاصة بك في المطالبة بأكثر من "البحث عن أقرب جزء نصي".
وفي الممارسة العملية، هذا يعني المواقف التي:
- يتطلب الأمر تفكيرًا معقدًا للكيان.
على سبيل المثال، إذا كان المستخدمون يطرحون بشكل روتيني أسئلة متعددة القفزات (أسئلة تتطلب التفكير عبر قطع متعددة من المعلومات للإجابة عليها بشكل صحيح) مثل "أي المؤلفين في المؤسسة X نشروا حول الموضوع Y بعد عام 2020؟"، فستستفيد من رسم بياني واضح للمؤلفين والمؤسسات والموضوعات وتواريخ النشر.
- لا يمكن حل الغموض أو الإشارة المشتركة من خلال السياق وحده.
عندما يشير نفس المصطلح إلى كيانات مختلفة تمامًا، على سبيل المثال، يمكن لكلمة عطارد أن تشير إلى كوكب، أو عنصر، أو حتى شركة تصنيع سيارات متوقفة الآن، فإن الرسم البياني الصغير لأنواع الكيانات والعلاقات سوف يحسن دقة الاسترجاع بشكل كبير.
- التصنيفات الهرمية أو الأنطولوجيات تدعم المحتوى الخاص بك.
إذا كانت معرفتك تتكون بشكل طبيعي من طبقات، على سبيل المثال، خطوط المنتجات، ووحدات SKU، والمواصفات، أو فئات الأمراض، والأنواع الفرعية، والعلاجات، فإن الرسم البياني يسمح لك بالانتقال إلى أعلى أو أسفل التسلسل الهرمي للحصول على استعلامات أكثر مرونة.
تذكر أن إدخال رسم بياني لا يعني التخلي عن أساس مخزن المتجهات، بل يعني إغنائه. يمكنك مواصلة العمل الشاق عبر التضمينات (استرجاع سريع وقابل للتطوير للمقاطع المرشحة)، ثم مراجعة الرسم البياني فقط لتحسين أو تصفية أو توسيع تلك النتائج. ولأن هذا النموذج الهجين لا يضيف تعقيدًا إلا عند الحاجة، فإنك تحافظ على خط إنتاجك الأساسي خفيفًا.
قم ببناء قاعدة المعرفة الخاصة بك لـ RAG مع Astera
لإنشاء قاعدة معرفية لـ RAG، يجب عليك تنفيذ سلسلة من المهام التي تركز على البيانات:
- استيعاب المحتوى الخام من المستندات وصفحات الويب وقواعد البيانات
- تنظيف وتطبيع هذا النص
- تقسيمها إلى أجزاء متماسكة
- تحويل كل جزء إلى تضمينات متجهية
- فهرسة هذه التضمينات للبحث السريع عن التشابه.
كل مرحلة من هذه المراحل ضرورية لضمان قدرة طبقة الاسترجاع الخاصة بك على إظهار المقاطع الأكثر صلة بدقة استجابةً لاستعلام ما، ولكن كل مرحلة تجلب أيضًا مجموعة من التحديات الخاصة بها، مثل:
- كتابة محللات مخصصة لملفات PDF
- ضبط منطق تقسيم النص لاحترام الحدود الدلالية
- الاعتماد على أدوات مختلفة لتضمين الجيل وتخزين المتجهات
هذا هو المكان Astera يمكن أن يحدث فرقًا بفضل مجموعة البيانات المدعومة بالذكاء الاصطناعي.
بدلاً من إدارة نصوص برمجية وواجهات برمجة تطبيقات متعددة عبر أدوات مختلفة، يمكنك تحديد سير العمل بأكمله ضمن بيئة واحدة. يُبسّط هذا الانتقال بين الخطوات، ويُقلّل من خطر التناقضات، ويُتيح لك التركيز على تحسين دقة الاسترجاع ودمج نموذج اللغة الخاص بك لتوليد الاستجابة.
على وجه التحديد، Astera يقوم بأتمتة عملية إنشاء قاعدة المعرفة RAG الخاصة بك من خلال توفير:
- موصلات السحب والإفلات للمصادر الشائعة
- تحويلات جاهزة مسبقًا لإزالة الضوضاء وتحويل النص
- وحدات التجزئة القابلة للتكوين
- إنشاء التضمين الجاهز للاستخدام
الخاتمة
يُتيح بناء قاعدة معرفية لـ RAG مسارًا عمليًا لتطبيقات استرجاع قوية ومعززة. ستستفيد من الكم الهائل من النصوص غير المنظمة مع الحد الأدنى من تكاليف التنظيم، مع الاستمتاع بسرعة الوصول إلى القيمة والأداء القابل للتطوير.
وعندما تتطور متطلباتك، يمكنك دائمًا تعزيز نظامك بمخطط معرفي للتعامل مع مهام التفكير المتقدمة. ابدأ بقاعدة معرفية مُحكمة، وستُرسي أساسًا متينًا لأي تحسينات مستقبلية على تطبيقات RAG الخاصة بك.
قاعدة المعرفة: الأسئلة الشائعة
ما هي إدارة المعرفة؟
إدارة المعرفة هي عملية جمع وتنظيم ومشاركة وصيانة الخبرات الجماعية وأصول المعلومات الخاصة بالمؤسسة. في سياق RAG، تتضمن إدارة المعرفة استيعاب وفهرسة وتحديث محتوى، مثل المستندات والأسئلة الشائعة ومواصفات المنتج، وغيرها، ليتمكن برنامج الذكاء الاصطناعي من استرجاع أهم المعلومات في الوقت الفعلي.
ما الذي يجعل قاعدة المعرفة جيدة؟
قاعدة المعرفة القوية هي تلك التي تغطي كامل طيف المواضيع التي سيواجهها نظام الذكاء الاصطناعي الخاص بك. بالإضافة إلى ذلك، يجب أن تخضع جميع مقالاتها ومدخلاتها للتدقيق والمراجعة من قِبل خبراء متخصصين. وأخيرًا، يجب أن تكون سهلة الوصول إليها من قِبل أعضاء فريقك وأنظمة الذكاء الاصطناعي.
ماذا ينبغي أن تحتوي قاعدة المعرفة؟
لا توجد معايير موحدة ومتفق عليها عالميًا تُحدد المحتوى الدقيق الذي يجب أن تتضمنه قاعدة المعرفة. ولكن، ستجد عمومًا أن معظم محتوى قاعدة المعرفة يتكون من مقالات مُهيكلة، ووثائق غير مُهيكلة، وأسئلة شائعة، وقواميس، وسجلات تغييرات، وتحديثات، وآراء المستخدمين.
كيف تقوم بتنظيم قاعدة المعرفة الخاصة بك؟
المبدأ الأساسي هو تسهيل وصول الخوارزمية إلى المعلومات قدر الإمكان للعثور على السياق الأنسب للإجابة على استفسار المستخدم. لذا، فإن قاعدة المعرفة المنظمة لتطبيقات RAG هي قاعدة بيانات متجهية مُعبأة، حيث يتكون كل مُدخل من جزء المحتوى، وتضمين المتجه، والبيانات الوصفية.
كيف أقوم بإنشاء قاعدة المعرفة الخاصة بي لتطبيقات RAG؟
بشكل عام، يمكنك إنشاء قاعدة معرفية بإحدى طريقتين: إما بدمج مكتبات وخدمات البرمجة المتاحة على نطاق واسع بنفسك، أو بالاستفادة من حل جاهز. في الحالة الأخيرة، Astera يوفر بيئة مرئية تحتوي على كل ما تحتاجه لبناء قاعدة معرفية وظيفية بالكامل لـ RAG.


