لكن، هل مديرو البيانات الرئيسيون مستعدون للاستفادة القصوى من البيانات غير المهيكلة لدعم مبادراتهم التحويلية المتعلقة بالذكاء الاصطناعي والبيانات؟ تبدو الإجابة غير متوقعة. فقد كشف استطلاع رأي أُجري عام 2023 وشمل 334 مدير بيانات رئيسيًا وقائدًا في مجال البيانات أن المؤسسات، على الرغم من حماسها للأثر التحويلي للذكاء الاصطناعي من الجيل الجديد، لم تُطور بعد استراتيجيات بيانات جديدة تُركز على الاستفادة الفعّالة من هذه التقنية.
تابع القراءة لمعرفة المزيد عن التحديات التي يواجهها كبار مسؤولي البيانات في إدارة البيانات غير المهيكلة وأفضل الممارسات لحوكمة هذه البيانات.
ما هي البيانات غير المهيكلة؟
قبل الانتقال إلى التحديات وأفضل الممارسات، دعونا نلقي نظرة سريعة على ماهية البيانات غير المهيكلة.
على عكس البيانات المنظمة، التي تتميز بتنسيق محدد، تفتقر البيانات غير المنظمة إلى نموذج بيانات مُسبق التحديد. وكما يوحي اسمها، فهي متوفرة بتنسيق حر، بدءًا من ملفات الوسائط وصولًا إلى المستندات النصية ونصوص الترميز وملفات قواعد البيانات.
وبما أن هذه البيانات تفتقر إلى تنسيق محدد مسبقًا، فإنها تُدار عادةً في قواعد البيانات غير العلائقية (NoSQL) أو بحيرات البيانات، حيث يتم تخزينها بتنسيقها الأصلي أو الخام.
نظراً لتوافر البيانات غير المهيكلة بتنسيقات متنوعة وشائعة الاستخدام، فلا عجب أنها تشكل، وفقاً لتقديرات مؤسسة IDC، 90% من بيانات المؤسسة. والمثير للدهشة أن أقل من جزء ضئيل من هذه البيانات يُستخدم ويُحلل.
تعرّف على المزيد حول البيانات غير المهيكلة هنا
أهم تحديات إدارة البيانات غير المهيكلة
صُممت أدوات الاكتشاف والفهرسة التقليدية في الأساس لإدارة البيانات المنظمة. ولذلك، فهي لا توفر رؤى تفصيلية حول البيانات غير المنظمة، مما يعيق المؤسسات عن الاستفادة منها في التحليلات أو التعلم الآلي أو غيرها من الأغراض الاستراتيجية.
فيما يلي أهم التحديات التي تواجهها المؤسسات في إدارة البيانات غير المهيكلة.
الحجم والتنوع
تنتشر البيانات غير المهيكلة في جميع أنحاء بيئة بيانات المؤسسة، بما في ذلك أصول البيانات غير الرسمية. علاوة على ذلك، فهي تتعدد أشكالها، إذ تتوفر بتنسيقات متنوعة، مثل ملفات الفيديو والصوت، ونصوص الترميز، وشفرات المصدر، وملفات النصوص والصور، ورسائل البريد الإلكتروني، وغيرها. إن حجم هذه البيانات الهائل وتنوعها يجعلان من الصعب للغاية على المؤسسات اكتشافها وتصنيفها باستخدام أدوات الاكتشاف التقليدية وأدوات التصنيف الآلي.
Data Quality مشاكل
لتحقيق أقصى استفادة من البيانات غير المهيكلة، من الضروري تجميعها بدقة متناهية لضمان صحتها وجودتها. مع ذلك، فإنّ الأمر ليس بهذه السهولة. ولتوضيح الصورة، يكشف الاستطلاع نفسه أن 46% من كبار مسؤولي البيانات وقادة هذا المجال يعتقدون أن data quality هي التحدي الأكبر الذي يعيق مبادراتهم في مجال الذكاء الاصطناعي من الجيل الجديد. Data quality تتدهور كفاءة إدارة البيانات عندما تتراكم البيانات غير المهيكلة بمرور الوقت، بما في ذلك البيانات القديمة والمكررة وغير المهمة. علاوة على ذلك، يمثل تقليل البيانات الزائدة أو القديمة تحديًا إضافيًا للمؤسسات، إذ يتطلب ذلك أدوات معقدة لتحديد هذه البيانات عبر مئات من بحيرات البيانات ومستودعاتها الأخرى.
عدم وجود Data Lineage
تتيح الطبيعة الديناميكية للبيانات غير المهيكلة نقلها بسرعة عبر مختلف المستودعات وبيئات الحوسبة السحابية. وأثناء انتقالها عبر الأنظمة والتطبيقات والأقسام، تخضع لتحولات متنوعة. وبدون فهم واضح لمصادر البيانات، يصعب تتبع مسارها أو التحقق من سلامتها ومصداقيتها. وبسبب غموض مسار البيانات وانعدام الشفافية، تواجه المؤسسات مخاطر تتعلق بالامتثال والحوكمة والأمن.
مشاكل الامتثال والأمن
تُشكّل البيانات غير المهيكلة خطراً جسيماً على الخصوصية والأمن إذا لم تُدار بشكل سليم. فهي تحتوي على كميات هائلة من المعلومات الشخصية ، بما فيها المعلومات الحساسة. وتستخدم تطبيقات الذكاء الاصطناعي هذه البيانات لتدريب نماذج التعلم الآلي أو لتحسين أدائها. وبدون ضوابط وسياسات مناسبة لتحديد المعلومات الحساسة بدقة وتنقيحها أو تشفيرها، قد يؤدي ذلك إلى مخاطر أمنية وانتهاكات للوائح. كذلك، توجد حالياً قوانين متعددة خاصة بالبيانات والذكاء الاصطناعي، قد تتداخل لوائحها فيما يتعلق بجمع المعلومات الشخصية واستخدامها وبيعها، وتطوير أنظمة الذكاء الاصطناعي. وبدون رؤية واضحة للبيانات الحساسة ونماذج الذكاء الاصطناعي في جميع أنحاء البيئة، تفشل المؤسسات في تطبيق ضوابط أمنية وحوكمة وامتثال مناسبة.
تحديات إدارة الوصول
تُشكّل إدارة التحكم في الوصول إلى البيانات غير المهيكلة تحديًا كبيرًا للمؤسسات المتوسطة والكبيرة، نظرًا لوجود كميات هائلة منها في بيئاتها تصل إلى بيتابايت. وقد يؤدي غياب ضوابط الوصول أو عدم كفاءتها إلى مخاطر تسريب البيانات الحساسة . وللأسف، لا تملك المؤسسات نهجًا موحدًا لإدارة الوصول، فالأدوات التقليدية لا تملك القدرة على التعامل مع الوصول إلى البيانات غير المهيكلة بشكل منفصل.
أفضل 10 ممارسات لإدارة البيانات غير المهيكلة
قد يؤدي اتباع نهج مجزأ في إدارة البيانات غير المهيكلة إلى زيادة العزلة بين أقسام البيانات، ونقص في سياق البيانات بين الفرق، وتفاقم التحديات والتكاليف. لذا، يجب على المؤسسات السعي نحو إطار عمل موحد لإدارة البيانات غير المهيكلة، يشمل قدرات أساسية مثل اكتشاف البيانات غير المهيكلة وتصنيفها، وتحديد صلاحيات الوصول، وإدارة دورة حياة البيانات، وتنظيف البيانات والتحقق من صحتها، وضوابط أمنية قوية.
بدايةً، يجب على مسؤولي البيانات الرئيسيين تطبيق أفضل الممارسات التالية لإدارة البيانات بفعالية.
1. اكتشاف البيانات غير المهيكلة
تبدأ الإدارة الفعّالة للبيانات غير المهيكلة برؤية شاملة لجميع بياناتك في جميع مستودعاتك وبيئاتك. لذا، اكتشف البيانات غير المهيكلة في جميع مستودعاتك، بما في ذلك بحيرات البيانات، وتطبيقات المؤسسة، والتخزين السحابي ، ورسائل البريد الإلكتروني، وأنظمة إدارة المحتوى. احصل على رؤى معمقة حول البيانات الوصفية لأصول بياناتك غير المهيكلة، مثل حالة التشفير، وموقع البيانات، والمالك، وحجم البيانات، وما إلى ذلك. تساعد هذه الرؤى فرق الأمن والحوكمة والامتثال على وضع استراتيجيات بيانات أفضل وتنفيذها.
2. فهرسة البيانات غير المهيكلة
يجب على المؤسسات إنشاء فهرس شامل لبياناتها لتحقيق رؤية كاملة. كما يتيح فهرسة البيانات للفرق الحصول على مصدر موحد للمعلومات. وبالتالي، يعرف كل فريق وقسم في المؤسسة تعريفًا موحدًا لمجموعات البيانات المحددة. وتُسهّل الفهرسة أيضًا البحث عن البيانات والوصول إليها بسلاسة بناءً على فئات مختلفة. على سبيل المثال، يمكن للفرق القانونية البحث بسهولة عن مجموعات البيانات بناءً على تصنيفاتها التنظيمية، أو يمكن لفريق التسويق البحث عن البيانات المطلوبة بناءً على علامات التسويق. لذلك، أنشئ الفهرس بإضافة العلامات والبيانات الوصفية إلى الملفات وفقًا لمحتواها وسياقها لضمان ملاءمتها. أو قم بتجميع الملفات وفقًا للأقسام أو التنسيقات أو الوظائف.
3. تصنيف البيانات غير المهيكلة
يُمكّن التصنيف من اكتشاف وتحديد المعلومات الشخصية (PII)، بما في ذلك البيانات الحساسة، في مجموعات البيانات غير المهيكلة. استفد من المصنفات الجاهزة وأتمت تصنيف البيانات بناءً على الحساسية وغيرها من السمات المهمة. ولتجاوز أسلوب الكلمات المفتاحية ومطابقة الأنماط التقليدي، يمكن لفرق الحوكمة الاستفادة من تقنيات وخوارزميات الذكاء الاصطناعي/التعلم الآلي. على سبيل المثال، يمكن لتقنيات معالجة اللغة الطبيعية (NLP)، مثل تصنيف النصوص، والتعرف على الكيانات، ونمذجة المواضيع، واستخراج البيانات النصية، تحويل البيانات غير المهيكلة إلى رؤى قيّمة لتصنيفها وتسهيل البحث فيها بسلاسة.
4. ضمان استحقاقات الوصول
يُعدّ فهم صلاحيات الوصول إلى البيانات والحفاظ عليها أمرًا بالغ الأهمية لمنع الوصول غير المصرح به وتسريب البيانات الحساسة. يجب على فرق إدارة الوصول البدء بتحديد المستخدمين والأدوار التي لديها صلاحية الوصول إلى البيانات والملفات والمجلدات الحساسة في المستودعات غير المهيكلة. ثانيًا، يجب عليهم رسم خريطة للعلاقة بين هذه الصلاحيات والمستخدمين والأدوار والصلاحيات. بالنسبة لأنظمة الذكاء الاصطناعي العام، يجب على الفرق ضمان الحفاظ على صلاحيات الوصول من الأنظمة المصدرية أثناء استخراج البيانات، وتطبيق هذه الصلاحيات ضمن مسارات عمل الذكاء الاصطناعي العام أو على مستوى التنفيذ الفوري.
5. المسار Data Lineage
راقب تدفق البيانات وتحويلها طوال دورة حياتها لضمان سلامتها وموثوقيتها وشفافيتها. ابدأ بتقييم وتوثيق مصدر البيانات واستخدامها في مشاريع الذكاء الاصطناعي العام وغيرها من المشاريع لأغراض الامتثال وتقييم المخاطر. أنشئ خريطة مرئية توضح مصدر البيانات غير المهيكلة، وكيفية معالجتها، كما هو الحال أثناء تدريب نماذج التعلم الموجه بالتعلم أو ضبطها، وكيفية استخدام المستخدم النهائي لها. تحقق من مصدر وسلامة كل استجابة من مخرجات الذكاء الاصطناعي العام لضمان الشفافية والامتثال.
6. تنظيم البيانات غير المهيكلة
تعتمد مبادرات التحول الناجحة في مجال الذكاء الاصطناعي العام أيضًا على دقة البيانات وفائدتها. ولتحقيق ذلك، من المهم ضمان جودة البيانات من حيث دقتها وموثوقيتها (الدقة) ومدى ملاءمتها وتطبيقها (الفائدة) على بيانات محددة أو مبادرات الذكاء الاصطناعي العام. ولتحقيق هذا الهدف، يجب على فرق البيانات تنظيم البيانات غير المهيكلة وأتمتة عملية تصنيفها بناءً على محتواها وحساسيتها وحالات استخدامها.
تتعدد فوائد استخلاص البيانات، ويأتي في مقدمتها تحسين استخدامها وتحليلها. إذ يُمكّن استخلاص البيانات من مصادر متعددة الفرق من إنشاء رؤية موحدة لجميع بياناتها، مما يُسهّل الوصول إليها وتحليلها. ولضمان استخلاص فعال، يجب استخلاص البيانات غير المهيكلة من جميع التنسيقات المتاحة، وهناك عدة طرق لتحقيق ذلك. فعلى سبيل المثال، باستخدام التحليل عالي الدقة، تستطيع الفرق التقاط التخطيط المرئي للمستند أو الملف، مما يُحسّن تقسيم البيانات إلى أجزاء لتسهيل تحويلها إلى متجهات، ويعزز قدرة نظام إدارة التعلم على فهم البيانات بشكل أفضل. وبالمثل، يُمكن استخدام تقنية التعرف الضوئي على الأحرف (OCR) لاستخلاص البيانات من الصور.
8. تشغيل عملية تنظيف البيانات
يجب أن تخضع البيانات لعملية تنقية دقيقة قبل إتاحتها للاستخدام في مشاريع الذكاء الاصطناعي العام. فبعد تدريب نموذج التعلم الآلي على مجموعة بيانات محددة، لا يمكنه التراجع عن التدريب. لذا، عند استخراج بيانات غير منظمة، وخاصةً إذا كانت تحتوي على بيانات حساسة، يجب تنقيتها باستخدام تقنيات الإخفاء والتشفير والتنقيح والتجزئة الآلية. ومن الأهمية بمكان أيضًا أن تخضع البيانات لضوابط امتثال داخلية للتأكد من عدم انتهاكها لأي لوائح تتعلق بالبيانات أو الذكاء الاصطناعي قبل استخدامها في تدريب نموذج التعلم الآلي.
9. تأكد Data Quality
كما سبق ذكره، data quality يُعدّ هذا أحد أكبر التحديات التي تواجه مديري البيانات وقادة فرق البيانات، والتي تعيق مشاريع الذكاء الاصطناعي العام. وللحصول على تحليلات أو نتائج ذات مغزى من البيانات، أو لتطوير تطبيقات ذكاء اصطناعي عام تتسم بالأخلاقيات والموثوقية، يجب أن تكون البيانات حديثة وفريدة وكاملة ودقيقة وذات صلة. data quality عن طريق استنتاج البيانات الوصفية، مثل حداثتها وموضوعها، وتقييم الملفات المضمنة من حيث حداثة وموثوقية المصدر.
10. وضع ضوابط أمنية للبيانات والذكاء الاصطناعي
قم ببناء ضوابط خصوصية وأمان مدمجة لحماية البيانات وتفاعلات التعلم القائم على التعلم. تأكد من تهيئة أنظمة البيانات ونماذج الذكاء الاصطناعي بشكل صحيح، ومن منح الصلاحيات المناسبة للمستخدمين المصرح لهم فقط لمنع تسريب البيانات الحساسة. ضع سياسات شاملة تغطي طبيعة البيانات الحساسة ومواضيعها، بالإضافة إلى التصيد الاحتيالي والهجمات الإلكترونية، وقم بتنفيذها.
إدارة وحماية بياناتك غير المهيكلة باستخدام Securiti
لا تمتلك أدوات إدارة البيانات التقليدية القدرات اللازمة لإدارة البيانات غير المهيكلة، مثل اكتشاف البيانات وتصنيفها بشكل مباشر. data quality رؤى، وتتبع النسب، أو ضوابط استخراج البيانات وتنظيفها.
Securiti Data Command Graph تُعدّ هذه القدرة الرئيسية لمركز قيادة البيانات والذكاء الاصطناعي لدينا، حيث تساعد المؤسسات على التقاط جميع البيانات الوصفية المهمة والعلاقات بينها، مما يوفر رؤى سياقية حول البيانات غير المهيكلة لجميع وجهات النظر الرئيسية، مثل:
- أنظمة البيانات.
- المجلدات / الصناديق.
- الملفات / الكائنات / المستندات.
- حساسية البيانات.
- الوصول والاستحقاقات.
- السياسات والضوابط الداخلية.
- اللوائح المعمول بها.
- نماذج/مسارات الذكاء الاصطناعي العام.
هذه هي المعلومات الأساسية التي تحتاجها المؤسسات للاستخدام الفعال للبيانات وتمكين الاستخدام الآمن للذكاء الاصطناعي من الجيل الأول. بالإضافة إلى Data Command Graph يساعد مركز قيادة البيانات والذكاء الاصطناعي المؤسسات على:
- اكتشف الملفات من جميع الأنواع (المستندات، الصوت، الفيديو، الصور، إلخ). CLOBs.
- تحديد فئات الملفات (القانونية، والمالية، والموارد البشرية، وما إلى ذلك) بناءً على المحتوى.
- احصل على رؤى حول الوصول وحقوق المستخدمين وقم بأتمتتها.
- ابحث عن العناصر الحساسة داخل ملف.
- لوائح الخرائط المطبقة على محتوى الملف.
- يضمن data quality (الحداثة، الصلة، التفرد، إلخ.)
- تتبع مسار الملفات والتضمينات المستخدمة في أنابيب GenAI.
اطلب عرضًا توضيحيًا لمعرفة المزيد.