تستخدم نماذج الذكاء الاصطناعي العام ونماذج اللغة الكبيرة كميات هائلة من البيانات غير المهيكلة، مثل الصور والنصوص والتسجيلات الصوتية والفيديوهات. ومن الصعب للغاية التأكد من جودة هذه البيانات، التي قد تحتوي على معلومات غامضة ومكررة وغير موثقة. فكيف يمكن ضمان جودة مخرجات الذكاء الاصطناعي العام في حين أن جودة البيانات المدخلة غير المهيكلة مشكوك فيها؟
تشير دراسة أجرتها مؤسسة IDC إلى أن الشركات التي استخدمت البيانات غير المهيكلة خلال الاثني عشر شهرًا الماضية سجلت تحسنًا في رضا العملاء والاحتفاظ بهم، وحوكمة البيانات، والامتثال للوائح، والابتكار، وإنتاجية الموظفين. وبطبيعة الحال، هناك تسارع في الاستفادة من البيانات غير المهيكلة مع الذكاء الاصطناعي العام لتحقيق نمو الأعمال والابتكار والامتثال. ومع ذلك، تشير تقارير Forrester إلى أن data quality أصبحت الآن العامل المحدد الرئيسي لتبني الذكاء الاصطناعي العام .
هل حان الوقت لإعادة التفكير؟ data quality في عصر الذكاء الاصطناعي العام؟
ما هو Data Quality
بحسب التعريف التقليدي، data quality يُعدّ هذا مقياسًا لمدى ملاءمة البيانات للاستخدام المقصود. وتُقاس ملاءمة البيانات بالدقة، والشمولية، والاتساق، والصحة، والتفرد، والسلامة، وسهولة الوصول، والتوقيت المناسب. ولا يُمكن تقييم هذه الأبعاد إلا للبيانات المهيكلة، التي تتميز بتنسيقات وتنظيمات محددة بوضوح.
عند التعامل مع البيانات غير المهيكلة، يُصعّب غياب أي تنسيق مُحدد تقييم اكتمالها واتساقها وصحتها. كما يصعب التأكد من تفردها، إذ غالبًا ما تتكرر البيانات غير المهيكلة في قواعد بيانات مختلفة. على سبيل المثال، يؤدي إرسال مستند إلى مجموعة إلى حفظ نسخ متعددة منه في حسابات مختلفة. لذا، يُعد تحديد أحدث نسخة وأكثرها صلة بالمستند أمرًا بالغ الأهمية، خاصةً عند وجود نسخ متعددة. إضافةً إلى ذلك، يُعد فهم سياق المستند ضروريًا لضمان تفسيره واستخدامه بشكل صحيح من قِبل الذكاء الاصطناعي العام.
في نهاية المطاف، تتوقف جودة البيانات غير المهيكلة على دقتها السياقية، وملاءمتها، وحداثتها. ولكن كيف يمكن تقييم هذه الخصائص في الكميات الهائلة من البيانات غير المهيكلة التي تغمر المؤسسات باستمرار؟
تحديات ضمان جودة البيانات غير المهيكلة
إن ضمان جودة البيانات غير المهيكلة يطرح العديد من التحديات:
- لا توجد معايير موحدة : لا توجد طريقة واحدة لتحديد جودة البيانات غير المهيكلة. فالتنسيقات المتنوعة للنصوص والصور والفيديوهات والملفات الصوتية تجعل من الصعب تطبيق معيار جودة موحد.
- حجم كبير وضوضاء : قد يكون حجم البيانات غير المهيكلة المتدفقة في الوقت الفعلي هائلاً ويصعب معالجتها. كما أنها تحتوي عادةً على معلومات غير ذات صلة أو زائدة أو مشوشة تؤثر على الجودة.
- الدقة السياقية : إن ضمان أن تعكس البيانات سياقها بدقة يمثل تحديًا، حيث يعتمد التفسير على عوامل مختلفة لا يمكن رصدها من خلال التحليل البسيط.
- المعالجة كثيفة الموارد : يتطلب تقديم الجودة أدوات متطورة وإشرافًا بشريًا لتفسير البيانات الغامضة بشكل صحيح، وهو ما قد يكون كثيف الموارد.
- المعلومات الحساسة : قد تحتوي البيانات غير المهيكلة على معلومات شخصية أو معلومات حساسة ، مما يُشكل مخاطر على الخصوصية. مع ذلك، فإن حذف هذه البيانات قد يؤثر على جودة استجابات الذكاء الاصطناعي العام، وبالتالي عليها. لذا، يُعدّ تنظيف البيانات أمرًا ضروريًا لاستخدامها الآمن.
يتطلب التصدي لهذه التحديات استخدام أدوات متطورة وإنشاء أطر حوكمة بيانات قوية للحفاظ على مستوى عالٍ من الأمان. data quality .
Data Quality البيانات المنظمة مقابل البيانات غير المنظمة
|
البيانات المنظمة
|
البيانات غير المهيكلة
|
| يتم تنظيم البيانات في جداول تحتوي على صفوف وأعمدة، مما يضمن أن كل نقطة بيانات تتوافق مع نوع ونطاق وبنية محددة. |
تشمل البيانات النصوص والصور ومقاطع الفيديو بدون تنسيق أو تنظيم محدد مسبقًا، مما يجعل من الصعب تطبيق أي تعريف قياسي للجودة. |
| تُعرَّف الجودة بالدقة والشمولية والاتساق. |
تعتمد الجودة على ثراء المحتوى ودقته السياقية، بالإضافة إلى مدى ملاءمته وحداثته. |
| الجودة تعني أن البيانات مناسبة للاستخدام في عمليات الأعمال والتحليلات. |
تشير الجودة إلى إمكانية معالجة البيانات وتحليلها بشكل موثوق باستخدام تقنيات متقدمة مثل معالجة اللغة الطبيعية والتعلم الآلي. |
إعادة التفكير Data Quality للذكاء الاصطناعي العام
لتقديم مستوى عالٍ data quality من الضروري فهم كيفية عمل الذكاء الاصطناعي العام مع البيانات غير المهيكلة. يبني الذكاء الاصطناعي العام السياق حول البيانات من خلال استنتاج البيانات الوصفية وربط مفاهيم البيانات، وهو أمر غير ممكن مع الجداول العلائقية. كما أنه يفسر البيانات التي يمكن أن تأخذ أي قيمة ضمن نطاق معين بدلاً من مجموعات البيانات المنفصلة والمحددة جيدًا، لذا فإن data quality ينبغي أن يركز النهج على تنظيم التفاعلات المستمرة للذكاء الاصطناعي العام. وأخيرًا، يستهلك الذكاء الاصطناعي العام كميات هائلة من البيانات ويحتاج إلى معالجة فورية لتقديم محادثات سريعة ودقيقة وسياقية.
من المهم أيضًا ملاحظة أن الذكاء الاصطناعي العام يستهلك كل ما تقدمه، بما في ذلك البيانات الحساسة، ويحتفظ بالمعلومات إلى الأبد. حماية البيانات الحساسة كجزء من data quality يمكن للمبادرة أن تضمن استخدام البيانات بشكل آمن ومتوافق مع القوانين.
باختصار، يحتاج الجيل الجديد من الذكاء الاصطناعي إلى شيء جديد فريد من نوعه data quality إجراءات مثل الحداثة والملاءمة والتفرد، إلى جانب تنظيم البيانات وتنظيفها لبناء نماذج موثوقة وقوية.
كيف Securiti يقدم جودة عالية Data Quality
تقديم مستوى عالٍ data quality يبدأ ذلك بفهم البيانات ونماذج الذكاء الاصطناعي العام التي ستستخدم هذه البيانات. Securiti يساعدك على اكتساب رؤى سياقية للبيانات من جميع وجهات النظر الرئيسية من خلال منظور متعدد الأبعاد Data Command Graph . إنه رسم بياني معرفي يلتقط جميع البيانات الوصفية الأساسية والعلاقات بينها لجميع الأنواع، بما في ذلك المستندات والصور والصوت والفيديو و CLOBs وغيرها الكثير.
مع Securiti Data Command Graph يمكنك الحصول على عرض كامل لما يلي:
- تصنيفات الملفات بناءً على المحتوى، على سبيل المثال، الشؤون القانونية أو المالية أو الموارد البشرية
- صلاحيات الوصول والمستخدم
- الكائنات الحساسة داخل الملف
- اللوائح المطبقة على محتوى الملفات
- جودة الملف، مثل حداثته أو ملاءمته أو تفرده
- تسلسل الملفات والتضمينات المستخدمة في أنابيب GenAI.
بفضل هذه الرؤى، يمكنك الرد على أي سؤال حول البيانات ونماذج الذكاء الاصطناعي العام وعلاقاتها، مما يتيح الاستخدام الآمن للبيانات والذكاء الاصطناعي.
ثم تأتي عملية تنظيم البيانات، وتنظيف البيانات، والدمج المباشر data quality .
تنسيق البيانات
Securiti يساعدك على تنظيم الملفات والكائنات وتصنيفها تلقائيًا لاستخدامها في مشاريع الذكاء الاصطناعي العام. يمكنك
- قم بتنظيم البيانات من خلال تحليل المحتوى وإضافة تصنيفات البيانات تلقائيًا إلى الملفات بناءً على المحتوى.
- استخدم إطار عمل سياسات قابل للتوسيع لتطبيق تصنيفات الحساسية وحالات الاستخدام تلقائيًا داخل الملفات والمستندات. يمكن أن تتضمن هذه التصنيفات فئة البيانات الشخصية، والغرض منها، وفترة الاحتفاظ بها، وغير ذلك، لضمان الدقة والملاءمة السياقية، وبالتالي استخدام البيانات المناسبة فقط لمشاريع الذكاء الاصطناعي العام.
- حافظ على التصنيفات والوسوم عند نقل الملفات من الأنظمة المصدرية لتغذية نماذج الذكاء الاصطناعي العام.