البنية التي ابتلعت العالمين
على مدى عقدين، عاشت بيانات المؤسسات في أحد مكانين. البيانات المهيكلة — المعاملات وسجلات العملاء والتقارير المالية — ذهبت إلى مستودعات البيانات: Teradata وOracle ثم Snowflake وBigQuery. البيانات غير المهيكلة وشبه المهيكلة — السجلات وقراءات المستشعرات وكائنات JSON والصور — ذهبت إلى بحيرات البيانات: مجموعات Hadoop ثم التخزين الكائني السحابي مثل S3. خدم النظامان أغراضاً مختلفة، واستخدما أدوات مختلفة، ونادراً ما تواصلا بكفاءة. الفرق التي احتاجت كليهما حافظت على نسختين من البيانات ومجموعتين من خطوط الأنابيب ومجموعتين من المهارات.
يلغي data lakehouse هذا الانقسام. يطبق هيكلة مستودع البيانات — المخططات ومعاملات ACID والسفر عبر الزمن والفهرسة — مباشرة على البيانات الموجودة في تنسيقات ملفات مفتوحة على التخزين الكائني السحابي. تحصل على موثوقية وأداء الاستعلام الخاص بمستودع البيانات مع قابلية التوسع والانفتاح وتكلفة بحيرة البيانات. صاغت Databricks المصطلح في 2020، لكن بحلول 2026 تبنى نمط lakehouse فعلياً كل مزود رئيسي لمنصات البيانات. لم يعد مفهوماً للنقاش؛ إنه البنية الافتراضية لمنصات البيانات المؤسسية الجديدة.
التقنية التمكينية وراء هذا التحول هي تنسيق الجداول المفتوح — طبقة بيانات وصفية تقع بين محركات الحوسبة وملفات التخزين. يهيمن تنسيقان: Apache Iceberg وDelta Lake. منافستهما والتوحيد البيئي الحاصل حولهما هي القصة المعمارية الأكثر أهمية في هندسة البيانات اليوم.
Apache Iceberg: المعيار المفتوح الذي يكسب الصناعة
أُنشئ Apache Iceberg في Netflix عام 2017 على يد Ryan Blue وDan Weeks لحل مشكلة محددة: إدارة جداول بحجم البيتابايت في S3 مع وصول موثوق ومتزامن من محركات حوسبة متعددة. جعلته Netflix مفتوح المصدر ومنحته لمؤسسة Apache للبرمجيات في نوفمبر 2018، وتخرج كمشروع Apache من المستوى الأعلى في مايو 2020. ما حدث بعد ذلك كان موجة صناعية عارمة.
تبنت Apple نظام Iceberg عبر جميع أقسامها، مديرةً جداول بحجم البيتابايت تغطي مجموعة واسعة من حالات الاستخدام — من البث الفوري والدفعات الصغيرة إلى أحمال عمل ETL التقليدية. تبعتها LinkedIn وAirbnb وExpedia. ثم في 2022، أعلنت Snowflake عن دعم أصلي لجداول Iceberg — مما يسمح لـ Snowflake بقراءة وكتابة بيانات بتنسيق Iceberg في التخزين السحابي الخاص بالعميل بدلاً من تنسيق Snowflake الداخلي المملوك. كان هذا تحولاً زلزالياً: أهم شركة مستودعات بيانات في العالم تؤيد تنسيقاً مفتوحاً يقلل الارتهان بمنصتها الخاصة. بحلول 2025، رفعت Snowflake تنسيق Iceberg إلى تنسيق جدول من الدرجة الأولى مع إدارة كاملة لدورة الحياة وضغط تلقائي ودعم كتابة للجداول Iceberg المُدارة خارجياً وصل إلى التوفر العام في أكتوبر 2025.
يفسر التصميم التقني لـ Iceberg سرعة تبنيه. يستخدم شجرة من ملفات البيانات الوصفية تتتبع كل تغيير في الجدول، مما يتيح عزل اللقطات (قراء وكتّاب متعددون بدون تعارضات)، والسفر عبر الزمن (الاستعلام عن الجدول كما كان في أي نقطة سابقة)، وتطور المخطط (إضافة أو إزالة أو إعادة تسمية الأعمدة بدون إعادة كتابة البيانات). والأهم أن Iceberg يدعم محركات حوسبة متعددة في وقت واحد: يمكن لـ Spark وTrino وFlink وDremio وSnowflake وAthena جميعها قراءة وكتابة نفس جدول Iceberg. هذه التوافقية بين المحركات هي الميزة الحاسمة لـ Iceberg — تمنع أي مزود واحد من امتلاك طبقة البيانات، مما يمنح المؤسسات قابلية نقل حقيقية والقدرة على استخدام أفضل محرك لكل حمل عمل.
تضيف مواصفات Iceberg V3، المنشورة عبر الإصدارات 1.8.0 إلى 1.10.0 في 2025، قدرات مهمة: متجهات حذف ثنائية تحسن بشكل كبير أداء التحديث على مستوى الصفوف، وقيم أعمدة افتراضية لتطور المخطط الفوري بدون إعادة كتابة البيانات، ونوع متغير للبيانات شبه المهيكلة، وأنواع جغرافية مكانية أصلية، وتتبع نسب الصفوف بمعرفات صف فريدة. هذه الميزات تعزز مكانة Iceberg كأكثر تنسيقات الجداول المفتوحة تقدماً تقنياً.
تؤكد بيانات السوق الزخم. يبلغ التبني الحالي نحو 31% لـ Iceberg، مع معدلات تبني مخططة على ثلاث سنوات بنسبة 29% لـ Iceberg مقابل 23% لـ Delta Lake — مما يشير إلى أن Iceberg في طريقه لتوسيع الفجوة. يملك مشروع Iceberg أيضاً ما يقارب ضعف عدد المساهمين الفريدين مقارنة بـ Delta Lake. دمجت AWS وGoogle Cloud وMicrosoft Azure جميعها Iceberg بعمق في منصات بياناتها، مع وصول Amazon Redshift إلى التوفر العام للكتابة في جداول Iceberg في 2025.
إعلان
Delta Lake: أساس Databricks تحت الضغط
أنشأت Databricks تنسيق Delta Lake وجعلته مفتوح المصدر في 2019 كطبقة تخزين لمنصة Databricks Lakehouse. يوفر قدرات مشابهة لـ Iceberg — معاملات ACID والسفر عبر الزمن وفرض المخطط — وكان التنسيق الافتراضي لقاعدة عملاء Databricks الضخمة. يعالج Delta Lake أكثر من 10 إكسابايت من البيانات يومياً عبر قاعدة عملاء Databricks، وتخدم المنصة أكثر من 60% من شركات Fortune 500.
لسنوات عديدة، تعايش Delta Lake وIceberg مع حد أدنى من المنافسة المباشرة — كان Delta تنسيق نظام Databricks البيئي، وIceberg كان التنسيق المفتوح متعدد المحركات. لكن الخطوط تشوشت مع تقارب الصناعة نحو بنية lakehouse. استجابت Databricks لزخم Iceberg بـ Delta Lake UniForm، طبقة توافق تسمح بقراءة جداول Delta كجداول Iceberg (وApache Hudi) بواسطة محركات خارجية. وصل UniForm إلى التوفر العام في 2025، وتُظهر المقارنات المعيارية أن أداء قراءة جداول Delta عبر UniForm مماثل لأداء Snowflake الأصلي على Iceberg المُدار — عبء أداء يقترب من الصفر. تم التحقق من صحة UniForm مع Snowflake وBigQuery وRedshift وAthena. الرسالة براغماتية: تحسينات الكتابة في Delta وتكامل Databricks يجعلانه التنسيق الأساسي الأفضل للبيئات المتمحورة حول Databricks، بينما يضمن UniForm التوافقية مع بقية النظام البيئي.
تكثفت الديناميكيات التنافسية في يونيو 2024 عندما استحوذت Databricks على Tabular — الشركة التي أسسها مبتكرو Iceberg الأصليون Ryan Blue وDaniel Weeks وJason Reid — بنحو 2 مليار دولار. أرسل هذا الاستحواذ موجات صدمة عبر صناعة البيانات. تتولى Databricks الآن إشراف Delta Lake وتمارس تأثيراً كبيراً على تطوير Iceberg. أشارت الشركة إلى أنها ستدعم كلا التنسيقين وستعمل نحو التقارب، لكن الاستحواذ أثار مخاوف حول ما إذا كانت حوكمة Iceberg المحايدة تجاه المزودين ستنجو. يوفر نموذج حوكمة مؤسسة Apache للبرمجيات بعض الحماية، لكن مواهب الهندسة الرئيسية تجلس الآن داخل Databricks.
Snowflake مقابل Databricks: حرب المنصات وراء حرب التنسيقات
منافسة تنسيقات الجداول المفتوحة لا تنفصل عن الحرب الأوسع بين Snowflake وDatabricks — الشركتان اللتان حددتا بنية البيانات الحديثة وتسيطران معاً على أكثر من 10 مليارات دولار من الإيرادات السنوية المتكررة المجمعة. وصلت Databricks إلى نحو 5.4 مليار دولار ARR بنمو 65% على أساس سنوي، بينما تقف Snowflake عند نحو 4.84 مليار دولار ARR. فهم منافسة التنسيقات يتطلب فهم استراتيجيات المنصات.
تبني Snowflake لـ Iceberg هو هجوم استراتيجي. بتبني التنسيق المفتوح، تضع Snowflake نفسها كمحرك استعلام متميز يعمل مع بياناتك أينما كانت. يمكن للعملاء البدء بجداول Iceberg في S3 أو Azure Storage الخاص بهم، والاستعلام عنها عبر Snowflake، وتغيير المحركات دون ترحيل البيانات. يواجه هذا النقد التاريخي بأن تنسيق التخزين المملوك لـ Snowflake يخلق ارتهاناً بالمزود. عززت Snowflake هذه الاستراتيجية بجعل Polaris Catalog مفتوح المصدر في يوليو 2024 — تطبيق لمواصفات REST Catalog الخاصة بـ Iceberg — ومنحه لمؤسسة Apache. يتجه Apache Polaris نحو التخرج في 2026 ويكتسب دعماً للفهرسة متعددة التنسيقات، مع توافق مخطط لجداول Hudi وDelta إلى جانب Iceberg. تصبح طبقة الكتالوج ساحة المعركة الاستراتيجية الجديدة.
استراتيجية Databricks أكثر تعقيداً. كانت الشركة رائدة مفهوم lakehouse وتملك أقوى قصة تكامل تعلم آلي/ذكاء اصطناعي — استحواذها على MosaicML بـ 1.3 مليار دولار في 2023 وتطويرها لنموذج اللغة الكبير DBRX (136 مليار معامل، بنية مزيج الخبراء) يُظهران رؤية حيث تتقارب هندسة البيانات وتدريب نماذج الذكاء الاصطناعي على نفس المنصة. التكامل الأوثق لـ Delta Lake مع Spark (محرك تنفيذ Databricks) ومحرك الاستعلام Photon يمنحه مزايا أداء لأحمال العمل الأصلية لـ Databricks. ردت Databricks على خطوة كتالوج Snowflake بجعل Unity Catalog مفتوح المصدر في يونيو 2024، الذي يدعم واجهة برمجة تطبيقات REST Catalog الخاصة بـ Iceberg ويتيح للمحركات الخارجية القراءة (GA) والكتابة (معاينة عامة) في جداول Iceberg المُدارة بواسطة Unity Catalog. مع استحواذ Tabular، يمكن لـ Databricks التأثير على كلا التنسيقين مع المطالبة بالتقارب. الخطر أن يرى العملاء Databricks تستولي على النظام البيئي المفتوح — نفس النقد الذي أعاق استراتيجيات مزودي Hadoop قبل عقد.
للفرق المؤسسية للبيانات، حرب التنسيقات لها فائز واضح: الانفتاح. سواء اختارت المؤسسة Iceberg أو Delta كتنسيق أساسي، كلاهما مفتوح المصدر، كلاهما يخزن البيانات في ملفات Parquet على التخزين الكائني السحابي، وكلاهما يدعم الوصول متعدد المحركات عبر الدعم الأصلي أو توافقية UniForm. أيام البيانات المحبوسة داخل مستودع مملوك تقترب من نهايتها. النصيحة العملية لعام 2026 هي اختيار التنسيق المتوافق مع محرك الحوسبة الرئيسي — Iceberg لـ Snowflake أو Trino أو البيئات متعددة المحركات، Delta للبيئات المتمحورة حول Databricks — والاستثمار في كتالوج مفتوح (Polaris أو Unity Catalog) يوفر طبقة حوكمة فوق التنسيق نفسه.
ما يعنيه Lakehouse لخطوط أنابيب الذكاء الاصطناعي والتعلم الآلي
تأثير بنية lakehouse على الذكاء الاصطناعي والتعلم الآلي أكثر أهمية من تأثيره على التحليلات التقليدية — وهنا تتصل القصة بالاتجاه التكنولوجي المهيمن للعقد. لخطوط أنابيب الذكاء الاصطناعي/التعلم الآلي متطلبات بيانات مختلفة جوهرياً عن لوحات معلومات BI. تحتاج إلى بيانات تدريب مهيكلة إلى جانب بيانات غير مهيكلة (صور ونصوص وصوت). تحتاج إلى مخازن ميزات تخدم التدريب الدفعي والاستدلال الفوري معاً. تحتاج إلى إصدارات البيانات لإعادة إنتاج جلسات تدريب النماذج. وتحتاج إلى معالجة أحجام ضخمة بدون تكلفة تحميل كل شيء في مستودع بيانات.
يتعامل lakehouse مع كل هذه المتطلبات بشكل أصلي. يدعم كل من Iceberg وDelta إصدارات الجداول والسفر عبر الزمن، مما يجعل إعادة إنتاج بيانات التدريب بسيطة. كلاهما يخزن البيانات بتنسيق Parquet — تنسيق عمودي يمكن لأطر عمل التعلم الآلي مثل PyTorch وTensorFlow قراءته بكفاءة. كلاهما يدعم تطور المخطط، وهو ما يهم عندما تضيف هندسة الميزات أعمدة جديدة لمجموعات بيانات التدريب. وكلاهما يقع على التخزين الكائني السحابي الذي يتوسع إلى البيتابايت بجزء من تكاليف تخزين المستودع. يعزز نوع variant الجديد في Iceberg V3 قصة الذكاء الاصطناعي أكثر من خلال توفير معالجة أصلية للبيانات شبه المهيكلة — نوع الحمولات المختلطة الشائعة في خطوط أنابيب ميزات التعلم الآلي.
يحدث التقارب العملي في الوقت الفعلي. مخزن ميزات Databricks مبني على جداول Delta. تعمل خدمات Cortex AI من Snowflake على جداول Iceberg. تقدم كلتا المنصتين تكاملات مع MLflow وWeights & Biases وأدوات أخرى لتتبع تجارب التعلم الآلي. لفرق البيانات، يعني هذا أن نفس البنية التحتية التي تخدم لوحات المعلومات والتقارير تخدم أيضاً تدريب نماذج الذكاء الاصطناعي — مما يلغي حركة البيانات والازدواجية التي أبطأت تاريخياً مشاريع التعلم الآلي. lakehouse ليس مجرد مستودع بيانات أفضل؛ إنه منصة البيانات لعصر الذكاء الاصطناعي.
إعلان
🧭 رادار القرار (المنظور الجزائري)
| البُعد | التقييم |
|---|---|
| الأهمية بالنسبة للجزائر | متوسطة — بنية lakehouse هي مستقبل منصات البيانات المؤسسية؛ المؤسسات الجزائرية التي تتبنى التحليلات السحابية ستواجه هذا النمط |
| هل البنية التحتية جاهزة؟ | جزئي — أدوات lakehouse (Iceberg، Delta، Spark) مفتوحة المصدر ومتاحة عبر السحابة، لكن الجزائر تفتقر لمناطق سحابية محلية؛ الأقرب هي فرنسا وإسبانيا والبحرين |
| هل المهارات متاحة؟ | جزئي — يملك محترفو البيانات الجزائريون مهارات SQL وPython القابلة للنقل؛ الخبرة الخاصة بـ lakehouse (Iceberg، Delta، Spark) تتطلب تطويراً مستهدفاً |
| الجدول الزمني للعمل | 12-24 شهراً — ذو صلة للمؤسسات التي تخطط لتحديث منصة البيانات؛ فوري لمهندسي البيانات الأفراد الذين يبنون مهارات مستقبلية |
| أصحاب المصلحة الرئيسيون | فرق بيانات المؤسسات، Sonatrach والمؤسسات العامة الكبرى ذات الاحتياجات التحليلية، مهندسو منصات السحابة، محترفو هندسة البيانات |
| نوع القرار | استراتيجي |
خلاصة سريعة: يصبح data lakehouse البنية الافتراضية لمنصات البيانات المؤسسية، ليحل محل مستودعات البيانات التقليدية وبحيرات البيانات الخام معاً. للمؤسسات الجزائرية التي تخطط للبنية التحتية للبيانات، يتجنب تبني تنسيقات الجداول المفتوحة (Iceberg أو Delta) الارتهان بالمزود ويحمي الاستثمارات مستقبلياً. لمهندسي البيانات الأفراد، مهارات lakehouse أصبحت إلزامية بشكل متزايد للتموضع التنافسي في سوق العمل العالمي.
المصادر والقراءات الإضافية
- Apache Iceberg Documentation — Apache Software Foundation
- Delta Lake UniForm for Iceberg Compatibility, Now in GA — Databricks Blog
- Databricks Agrees to Acquire Tabular — Databricks Newsroom
- Databricks Reportedly Paid $2 Billion in Tabular Acquisition — TechCrunch
- What’s New in Apache Iceberg V3 — Google Open Source Blog
- Introducing Polaris Catalog: An Open Source Catalog for Apache Iceberg — Snowflake Blog
- Databricks Open Sources Unity Catalog — Databricks Newsroom
- Databricks vs Snowflake at $5B ARR — SaaStr
- Snowflake Managed Iceberg Tables: Interop Performance — Snowflake Engineering Blog
- The Lakehouse: A New Generation of Open Platforms — Databricks Research
إعلان