تحدي البيانات غير المهيكلة
أتاحت إدارة دورة حياة البيانات (LLMs) فرصةً للمؤسسات لاستخلاص قيمة هائلة من بياناتها غير المهيكلة. مع ذلك، يدرك مديرو البيانات الرئيسيون (CDAOs) تمامًا التحديات التي ينطوي عليها دمج البيانات غير المهيكلة في عمليات تحويل البيانات واسعة النطاق. في عالم مثالي، سيكون استخدام البيانات غير المهيكلة بنفس سهولة استخدام البيانات المهيكلة. تحتاج المؤسسات إلى ضمان موثوقية البيانات، وأنها خضعت لعملية تنظيف شاملة على مستوى العناصر، مع منح صلاحيات وصول دقيقة تحمي جميع البيانات في منظومة البيانات. اليوم، تُكافح المؤسسات لتطبيق نفس مستوى الحوكمة المُطبق عادةً على بياناتها المهيكلة بالغة الأهمية لأعمالها، كما هو الحال مع مخزونها المتزايد باستمرار من البيانات غير المهيكلة. في الوقت نفسه، تتعثر مبادرات الذكاء الاصطناعي التي طال انتظارها.
تواجه المؤسسات التي تستخدم Databricks للتحليلات والذكاء الاصطناعي تحديات تقنية محددة عند التعامل مع البيانات غير المهيكلة، والتي تشكل حوالي 90% من معلومات المؤسسة. ورغم تفوق Databricks في معالجة البيانات المهيكلة، وتقدمها الملحوظ في التعامل مع المصادر غير المهيكلة، إلا أن الفرق العاملة في بيئات بيانات سحابية هجينة ومعقدة قد تواجه العديد من المشكلات الجوهرية عند محاولة دمج المصادر غير المهيكلة في مسارات بياناتها.
1. متطلبات المعالجة المسبقة المعقدة واليدوية
يتطلب استيعاب البيانات غير المهيكلة (بما في ذلك المجلدات المضغوطة، وأنواع الملفات المختلطة، وتنسيقات CSV غير المتناسقة) معالجة مسبقة قبل تحميلها في Databricks. عادةً ما تحتاج الفرق إلى إنشاء برامج نصية مخصصة بلغة Python أو استخدام أدوات خارجية لتحليل البيانات وتنظيفها وتحويلها إلى تنسيق Delta Lake، مما يخلق تحديات تتعلق بقابلية التوسع وتكاليف صيانة إضافية.
2. إدارة الأذونات التفصيلية أمر معقد
لبناء تطبيقات ذكاء اصطناعي تراعي الأذونات وتحمي البيانات السرية والخاصة، يجب على الشركات ضمان وصول المستخدمين المصرح لهم فقط إلى البيانات الحساسة غير المهيكلة. يتطلب ذلك اليوم غالبًا إعدادات دقيقة. يوفر Unity Catalog تحكمًا مركزيًا في الوصول، لكن إعداد أذونات دقيقة - خاصةً للمواقع الخارجية في التخزين السحابي - عملية يدوية وعرضة للأخطاء. لماذا؟ الإجابة تقنية وتنظيمية. يتطلب تأمين البيانات غير المهيكلة عمومًا من المؤسسة وضع أذونات شاملة ودقيقة - لسوء الحظ، نظرًا لتغير مصادر البيانات باستمرار، تميل حتى أفضل الشركات إدارةً إلى الإفراط في منح الأذونات، حيث يتمتع عدد كبير جدًا من الأشخاص بإمكانية الوصول. بالنسبة لحالات استخدام الذكاء الاصطناعي، يصبح الأمر أكثر تعقيدًا، حيث تتضمن عملية سير عمل الذكاء الاصطناعي عملية تسمى "التحويل إلى متجه" (Vectorization) التي تحول جميع المعلومات إلى تمثيل قابل للفهرسة يمكن لأنظمة إدارة التعلم (LLMs) قراءته، وفي هذه العملية، تُخلّ بضوابط الوصول التي كنت تعتقد أنك تملكها في المقام الأول.
3. مخاطر الأمن والامتثال في مشاركة البيانات والنشر السريع
بيئة التعاون في Databricks، كغيرها من منصات البيانات السحابية الحديثة، تُسرّع من وتيرة مشاركة البيانات، مما يزيد بدوره من خطر تسريبها، سواءً كان ذلك عن طريق الخطأ أو عن قصد. غالبًا ما تحتوي البيانات غير المهيكلة على معلومات حساسة، وإذا لم يتم فحصها بدقة، يستحيل ضمان حصر جميع البيانات الحساسة . يؤدي استيعاب البيانات ومشاركتها بسرعة إلى عمليات فحص جزئية وتكوين خاطئ لضوابط الوصول، مما يُصعّب الالتزام باللوائح التنظيمية مثل اللائحة العامة لحماية البيانات (GDPR) وقانون قابلية نقل التأمين الصحي والمساءلة (HIPAA ) ومعيار أمان بيانات صناعة بطاقات الدفع (PCI-DSS ).
4. تكاليف استخراج الميزات وهيكلة البيانات
لا يكفي العثور على البيانات الحساسة في بيئات معقدة متعددة المستخدمين. يجب توفير أدوات لتقليل حجم البيانات الحساسة، وتنقيحها، وتنظيفها قبل تحميلها أو اعتبارها نسخة نهائية. قبل استخدام البيانات غير المهيكلة في التحليلات أو الذكاء الاصطناعي، يجب معالجتها باستخراج خصائصها وتحويلها بشكل معقد. يتطلب هذا اليوم مسارات بيانات إضافية وأدوات متخصصة يتعين على فرق الهندسة بناؤها وصيانتها.
قد يكون الاستعلام عن البيانات غير المهيكلة بطيئًا ويستهلك موارد كثيرة. وتؤدي عمليات التحويل، مثل تبسيط البيانات المتداخلة، إلى تدهور الأداء عند التعامل مع كميات كبيرة من البيانات، بينما تتسبب البيانات غير المهيكلة في زيادة تكاليف التخزين بشكل كبير وتعقد عملية الحوكمة. وبدون الأدوات اللازمة لتنظيم البيانات غير المهيكلة التي تحتاجها بدقة - لا أكثر ولا أقل - قد تواجه المؤسسات فواتير غير متوقعة وغير سارة.
كيف Securiti توسيع نطاق الحلول لتحديات البيانات غير المهيكلة
Securiti دخلت في شراكة مع داتابريكس لتقديم إدارة شاملة وموثوقة للبيانات غير المهيكلة مع سياق كامل من خلال Securiti تم دمج حل Gencore AI الخاص بشركة 's حديثًا بشكل مباشر في Delta Tables وUnity Catalog. تُمكّن هذه الشراكة الجديدة المؤسسات من بناء أنظمة ذكاء اصطناعي توليدي ( GenAI ) آمنة وعالية الجودة، بالإضافة إلى وكلاء ذكاء اصطناعي، بسهولة وسرعة أكبر، باستخدام بيانات مؤسسية عالية القيمة وخاصة.
Securiti يعزز الذكاء الاصطناعي شركة داتابريكس بخمس طرق فعالة:
1. تبسيط عملية استيعاب البيانات غير المهيكلة
يستوعب Gencore AI البيانات غير المهيكلة والمهيكلة بأمان من تطبيقات SaaS والأنظمة المحلية إلى جداول Databricks Delta. ويُغني عن الحاجة إلى برامج معالجة مسبقة مخصصة، إذ يوفر مئات الموصلات الأصلية لاستيعاب البيانات بسرعة وأمان وعلى نطاق واسع من أي مكان، بما في ذلك السحابات العامة والخاصة وسحابات SaaS وسحابات البيانات.
يستفيد مهندسو البيانات: فبدلاً من إنشاء وصيانة البرامج النصية المخصصة، يمكن للفرق الاستفادة من Securiti مكتبة الموصلات الشاملة الخاصة بـ 's لتبسيط عملية الاستيعاب، مما يقلل وقت إعداد البيانات بنسبة تصل إلى 60% وفقًا لما تم الإبلاغ عنه من قبل shared Securiti وعملاء داتابريكس.
2. تنظيف البيانات وحمايتها آلياً
تساعد تقنية Gencore AI في تنقية المعلومات الحساسة (عن طريق تنقيحها أو إخفائها أو إخفاء هويتها) قبل إدخالها إلى Databricks. يقوم هذا الحل تلقائيًا بتصنيف البيانات الحساسة وتنقيحها فورًا، مما يضمن الخصوصية والامتثال قبل عرض البيانات على نماذج الذكاء الاصطناعي أو تحويلها إلى متجهات يمكن استرجاعها لاحقًا.
تستفيد فرق الأمن: قبل دخول البيانات إلى مسارات الذكاء الاصطناعي وأنظمة إدارة التعلم، تضمن عمليات الفحص الشاملة التوافق مع متطلبات AI governance والخصوصية والأمن والامتثال والسيادة - مما يقلل بشكل كبير من مخاطر الأمن والامتثال.
3. أمن البيانات وحوكمتها المتقدمة
تُمكّن الحماية المدمجة للبيانات، والتوافق مع معايير OWASP Top 10 لأنظمة إدارة دورة حياة البرمجيات ، وعرض كامل لأصل البيانات والذكاء الاصطناعي قائم على الرسوم البيانية، أنظمة ذكاء اصطناعي آمنة على نطاق واسع. تُطبّق Gencore AI جدران حماية متقدمة لأنظمة إدارة دورة حياة البرمجيات لفهم سياق جميع تفاعلات الذكاء الاصطناعي، بما في ذلك المطالبات والاستجابات واسترجاع البيانات، لتوفير حماية شاملة لبيانات المؤسسة تتجاوز بكثير ضوابط النماذج التي يسهل تجاوزها.
تستفيد فرق الامتثال من: السياسات المخصصة والمُعدة مسبقًا التي تحجب الهجمات الخبيثة، وتمنع تسريب البيانات الحساسة، وتضمن توافق أنظمة الذكاء الاصطناعي المؤسسية مع سياسات الشركة. كما تحافظ جدران الحماية هذه، التي تراعي السياق، على صلاحيات الوصول إلى المستندات والملفات طوال مسار الذكاء الاصطناعي.
4. تحسين ذكاء كتالوج Unity
يكتسب كتالوج Unity سياقًا أكثر ثراءً من خلال Data Command Graph الخاص بـ Securiti ، مما يزيد من استخدام البيانات. Securiti 's Data Command Graph يحتوي على سياق غني حول العلاقات بين الملفات والجداول والأعمدة وكائنات الذكاء الاصطناعي والمستخدمين والأذونات واللوائح التي يمكن تسجيلها بسلاسة داخل كتالوج Unity.
يستفيد مسؤولو البيانات: يزيد السياق الشامل من فائدة Unity Catalog ويتيح استخدامًا أكثر أمانًا للبيانات عبر النظام الأساسي.
5. ال Securiti Data Command Graph تغيير جذري لشركة داتابريكس
في قلب Securiti الحل هو Data Command Graph — رسم بياني معرفي يوفر معلومات سياقية حول بيانات المؤسسة. يُمكّن هذا الرسم البياني مما يلي:
- اختيار دقيق للملفات ومجموعات البيانات ذات الصلة بناءً على التصنيفات والاستحقاقات واللوائح والجودة
- رؤية شاملة data lineage وعلاقاتها
- الحفاظ على حقوق المستخدم على مستوى الاستجابة الفورية، وتعزيز الأمن والامتثال
"يُعدّ الذكاء السياقي للبيانات غير المهيكلة والمهيكلة على حد سواء جوهر حالات استخدام الذكاء الاصطناعي من الجيل الأول"، كما صرّحت جوسلين هول، المديرة الأولى لإدارة المنتجات. Data Command Graph يقوم تلقائيًا ببناء المعرفة حول بياناتك مما يوفر رؤى لخط أنابيب GenAI في كل خطوة من أجل استخدامه الآمن.
يوفر الرسم البياني رؤى سياقية متعمقة حول كائنات البيانات، مثل الملفات والمجلدات والمجموعات والجداول والأعمدة، بما في ذلك السياق ذي الصلة، مثل المعلومات الحساسة والاستحقاقات والموقع والسياسات والعمليات واللوائح المعمول بها.
الخلاصة: إطلاق العنان لتبني الذكاء الاصطناعي من خلال Securiti وداتابريكس
الشراكة بين Securiti وتمثل Databricks نقلة نوعية في مجال الذكاء الاصطناعي المؤسسي وقدرات بناء الحلول التي تراعي صلاحيات الوصول. فمن خلال معالجة التحديات الجوهرية لإدارة البيانات غير المهيكلة ، بات بإمكان المؤسسات الآن إطلاق العنان للإمكانات الكاملة لأصول بياناتها مع الحفاظ على معايير صارمة للأمن والحوكمة والامتثال.
مع استمرار المؤسسات في الاستثمار في مبادرات الذكاء الاصطناعي، ستصبح حلول مثل Gencore AI ضرورية لتوسيع نطاق استخدام الذكاء الاصطناعي في المؤسسات بشكل مسؤول وفعال. يُمكّن هذا التكامل الفرق من التركيز على الابتكار بدلاً من الانشغال بتعقيدات إدارة البيانات غير المهيكلة، مما يُسرّع في نهاية المطاف مسار التحول الرقمي للأعمال القائم على الذكاء الاصطناعي.
لمعرفة المزيد حول كيفية Securiti ويمكن لشركة Databricks مساعدة مؤسستك، تفضل بزيارة موقع Gencore AI التابع لشركة Securiti .