La révolution du Data Lakehouse : comment Apache Iceberg et Delta Lake transforment l’architecture des données

L’architecture qui a englouti les deux mondes

Pendant deux décennies, les données d’entreprise vivaient dans l’un de deux endroits. Les données structurées — transactions, dossiers clients, rapports financiers — allaient dans les data warehouses : Teradata, Oracle, puis Snowflake et BigQuery. Les données non structurées et semi-structurées — journaux, lectures de capteurs, blobs JSON, images — allaient dans les data lakes : clusters Hadoop, puis stockage objet cloud comme S3. Les deux systèmes servaient des objectifs différents, utilisaient des outils différents et communiquaient rarement entre eux efficacement. Les équipes ayant besoin des deux maintenaient deux copies des données, deux ensembles de pipelines et deux ensembles de compétences.

Le data lakehouse élimine cette division. Il applique la structure propre aux warehouses — schémas, transactions ACID, voyage dans le temps, indexation — directement aux données stockées dans des formats de fichiers ouverts sur du stockage objet cloud. Vous obtenez la fiabilité et la performance des requêtes d’un warehouse avec l’évolutivité, l’ouverture et le coût d’un lake. Databricks a inventé le terme en 2020, mais en 2026, le modèle lakehouse a été adopté par pratiquement tous les principaux fournisseurs de plateformes de données. Ce n’est plus un concept à débattre ; c’est l’architecture par défaut pour les nouvelles plateformes de données d’entreprise.

La technologie habilitante derrière cette transformation est le format de table ouvert — une couche de métadonnées qui se situe entre les moteurs de calcul et les fichiers de stockage. Deux formats dominent : Apache Iceberg et Delta Lake. Leur concurrence, et la consolidation de l’écosystème qui s’opère autour d’eux, constitue l’histoire architecturale la plus déterminante en ingénierie des données aujourd’hui.

Apache Iceberg : le standard ouvert qui conquiert l’industrie

Apache Iceberg a été créé chez Netflix en 2017 par Ryan Blue et Dan Weeks pour résoudre un problème spécifique : gérer des tables à l’échelle du pétaoctet dans S3 avec un accès fiable et concurrent depuis plusieurs moteurs de calcul. Netflix l’a rendu open source et l’a donné à l’Apache Software Foundation en novembre 2018, et il a obtenu le statut de projet Apache de premier niveau en mai 2020. Ce qui s’est passé ensuite a été un raz-de-marée industriel.

Apple a adopté Iceberg dans toutes ses divisions, gérant des tables à l’échelle du pétaoctet couvrant un large éventail de cas d’usage — du streaming temps réel et des micro-lots aux charges de travail ETL traditionnelles. LinkedIn, Airbnb et Expedia ont suivi. Puis, en 2022, Snowflake a annoncé le support natif des Iceberg Tables — permettant à Snowflake de lire et écrire des données au format Iceberg dans le propre stockage cloud du client plutôt que dans le format interne propriétaire de Snowflake. C’était un changement sismique : la plus importante entreprise de data warehouse au monde approuvait un format ouvert réduisant le verrouillage fournisseur à sa propre plateforme. En 2025, Snowflake avait élevé Iceberg au rang de format de table de premier plan avec une gestion complète du cycle de vie, une compaction automatique et un support d’écriture pour les tables Iceberg gérées en externe atteignant la disponibilité générale en octobre 2025.

La conception technique d’Iceberg explique la vélocité de son adoption. Il utilise un arbre de fichiers de métadonnées qui suit chaque modification d’une table, permettant l’isolation par snapshot (lecteurs et écrivains multiples sans conflits), le voyage dans le temps (interroger la table telle qu’elle existait à un point passé), et l’évolution de schéma (ajout, suppression ou renommage de colonnes sans réécriture des données). De manière cruciale, Iceberg supporte simultanément plusieurs moteurs de calcul : Spark, Trino, Flink, Dremio, Snowflake et Athena peuvent tous lire et écrire la même table Iceberg. Cette interopérabilité entre moteurs est la fonctionnalité décisive d’Iceberg — elle empêche tout fournisseur unique de posséder la couche de données, offrant aux entreprises une portabilité réelle et la capacité d’utiliser le meilleur moteur pour chaque charge de travail.

La spécification Iceberg V3, déployée à travers les versions 1.8.0 à 1.10.0 en 2025, ajoute des capacités significatives : des vecteurs de suppression binaires qui améliorent considérablement les performances de mise à jour au niveau des lignes, des valeurs de colonnes par défaut pour une évolution de schéma instantanée sans réécriture de données, un type variant pour les données semi-structurées, des types géospatiaux natifs et le suivi de lignage des lignes avec des identifiants de ligne uniques. Ces fonctionnalités consolident la position d’Iceberg comme le format de table ouvert le plus avancé techniquement.

Les données du marché confirment l’élan. L’adoption actuelle se situe à environ 31 % pour Iceberg, avec des taux d’adoption prévus sur trois ans de 29 % pour Iceberg contre 23 % pour Delta Lake — indiquant qu’Iceberg est en passe de creuser l’écart. Le projet Iceberg compte également près du double de contributeurs uniques par rapport à Delta Lake. AWS, Google Cloud et Microsoft Azure ont tous intégré Iceberg profondément dans leurs plateformes de données, Amazon Redshift atteignant la disponibilité générale pour l’écriture dans les tables Iceberg en 2025.

Delta Lake : la fondation de Databricks sous pression

Delta Lake a été créé par Databricks et rendu open source en 2019 comme couche de stockage pour la Databricks Lakehouse Platform. Il offre des capacités similaires à Iceberg — transactions ACID, voyage dans le temps, application de schéma — et a été le format par défaut pour l’immense base de clients de Databricks. Delta Lake traite plus de 10 exaoctets de données quotidiennement à travers la base clients de Databricks, et la plateforme sert plus de 60 % du Fortune 500.

Pendant plusieurs années, Delta Lake et Iceberg coexistaient avec une concurrence directe minimale — Delta était le format de l’écosystème Databricks, Iceberg était le format ouvert multi-moteur. Mais les lignes se sont brouillées à mesure que l’industrie convergeait vers l’architecture lakehouse. Databricks a répondu à l’élan d’Iceberg avec Delta Lake UniForm, une couche de compatibilité permettant aux tables Delta d’être lues comme des tables Iceberg (et Apache Hudi) par des moteurs externes. UniForm a atteint la disponibilité générale en 2025, et les benchmarks montrent que les performances de lecture des tables Delta via UniForm sont comparables à celles de Snowflake natif sur Iceberg géré — un surcoût de performance quasi nul. UniForm a été validé avec Snowflake, BigQuery, Redshift et Athena. Le message est pragmatique : les optimisations d’écriture de Delta et l’intégration Databricks en font le meilleur format principal pour les environnements centrés sur Databricks, tandis qu’UniForm assure l’interopérabilité avec le reste de l’écosystème.

La dynamique concurrentielle s’est intensifiée en juin 2024 lorsque Databricks a acquis Tabular — la société fondée par les créateurs originaux d’Iceberg, Ryan Blue, Daniel Weeks et Jason Reid — pour environ 2 milliards de dollars. Cette acquisition a provoqué une onde de choc dans l’industrie des données. Databricks est désormais responsable de Delta Lake et exerce une influence significative sur le développement d’Iceberg. L’entreprise a signalé qu’elle supporterait les deux formats et travaillerait vers la convergence, mais l’acquisition a soulevé des inquiétudes quant à la survie de la gouvernance véritablement neutre d’Iceberg vis-à-vis des fournisseurs. Le modèle de gouvernance de l’Apache Software Foundation offre une certaine protection, mais les talents d’ingénierie clés siègent désormais au sein de Databricks.

Snowflake vs. Databricks : la guerre des plateformes derrière la guerre des formats

La compétition des formats de table ouverts est indissociable de la guerre plus large entre Snowflake et Databricks — les deux entreprises qui ont défini l’architecture moderne des données et qui commandent ensemble plus de 10 milliards de dollars de revenus annuels récurrents combinés. Databricks a atteint environ 5,4 milliards de dollars d’ARR avec une croissance de 65 % en glissement annuel, tandis que Snowflake se situe à environ 4,84 milliards de dollars d’ARR. Comprendre la compétition des formats nécessite de comprendre les stratégies des plateformes.

L’adoption d’Iceberg par Snowflake est une offensive stratégique. En adoptant le format ouvert, Snowflake se positionne comme le moteur de requête premium qui fonctionne avec vos données où qu’elles se trouvent. Les clients peuvent commencer avec des tables Iceberg dans leur propre S3 ou Azure Storage, les interroger via Snowflake et changer de moteur sans migrer les données. Cela contrecarre la critique historique selon laquelle le format de stockage propriétaire de Snowflake créait un verrouillage fournisseur. Snowflake a renforcé cette stratégie en rendant open source Polaris Catalog en juillet 2024 — une implémentation de la spécification REST Catalog d’Iceberg — et en le donnant à la Fondation Apache. Apache Polaris se dirige vers la graduation en 2026 et gagne en support pour le catalogage multi-format, avec une compatibilité planifiée pour les tables Hudi et Delta aux côtés d’Iceberg. La couche de catalogue devient le nouveau champ de bataille stratégique.

La stratégie de Databricks est plus complexe. L’entreprise a été pionnière du concept de lakehouse et possède l’histoire d’intégration ML/IA la plus forte — son acquisition de MosaicML pour 1,3 milliard de dollars en 2023 et le développement du grand modèle de langage DBRX (136 milliards de paramètres, architecture à mélange d’experts) témoignent d’une vision où l’ingénierie des données et l’entraînement de modèles d’IA convergent sur la même plateforme. L’intégration plus étroite de Delta Lake avec Spark (le moteur d’exécution de Databricks) et le moteur de requête Photon lui confère des avantages de performance pour les charges de travail natives Databricks. Databricks a répondu au mouvement catalogue de Snowflake en rendant open source Unity Catalog en juin 2024, qui supporte l’API REST Catalog d’Iceberg et permet aux moteurs externes de lire (GA) et écrire (aperçu public) dans les tables Iceberg gérées par Unity Catalog. Avec l’acquisition de Tabular, Databricks peut influencer les deux formats tout en plaidant pour la convergence. Le risque est que les clients perçoivent Databricks comme s’appropriant l’écosystème ouvert — la même critique qui a assombri les stratégies des fournisseurs Hadoop il y a une décennie.

Pour les équipes data d’entreprise, la guerre des formats a un vainqueur clair : l’ouverture. Qu’une organisation choisisse Iceberg ou Delta comme format principal, les deux sont open source, les deux stockent les données en fichiers Parquet sur du stockage objet cloud, et les deux supportent l’accès multi-moteur via un support natif ou la compatibilité UniForm. L’époque des données verrouillées dans un warehouse propriétaire touche à sa fin. Le conseil pratique pour 2026 est de choisir le format aligné avec votre moteur de calcul principal — Iceberg pour Snowflake, Trino ou les environnements multi-moteurs, Delta pour les environnements centrés sur Databricks — et d’investir dans un catalogue ouvert (Polaris ou Unity Catalog) qui fournit une couche de gouvernance au-dessus du format lui-même.

Ce que le lakehouse signifie pour les pipelines IA/ML

L’impact de l’architecture lakehouse sur l’IA et l’apprentissage automatique est sans doute plus significatif que son impact sur l’analytique traditionnelle — et c’est là que l’histoire se connecte à la tendance technologique dominante de la décennie. Les pipelines IA/ML ont des besoins en données fondamentalement différents des tableaux de bord BI. Ils nécessitent des données d’entraînement structurées aux côtés de données non structurées (images, texte, audio). Ils nécessitent des feature stores qui servent à la fois l’entraînement par lots et l’inférence en temps réel. Ils nécessitent le versionnement des données pour reproduire les sessions d’entraînement des modèles. Et ils doivent traiter des volumes massifs sans le coût du chargement intégral dans un warehouse.

Le lakehouse gère toutes ces exigences nativement. Iceberg et Delta supportent tous deux le versionnement des tables et le voyage dans le temps, rendant la reproductibilité des données d’entraînement simple. Les deux stockent les données en Parquet — un format colonnaire que les frameworks ML comme PyTorch et TensorFlow peuvent lire efficacement. Les deux supportent l’évolution de schéma, ce qui compte lorsque l’ingénierie des features ajoute de nouvelles colonnes aux jeux de données d’entraînement. Et les deux reposent sur du stockage objet cloud, qui passe à l’échelle du pétaoctet pour une fraction des coûts de stockage d’un warehouse. Le nouveau type variant d’Iceberg V3 renforce encore le cas de l’IA en fournissant une gestion native des données semi-structurées — le type de charges utiles à format mixte courant dans les pipelines de features ML.

La convergence pratique se produit en temps réel. Le Feature Store de Databricks est construit sur des tables Delta. Les services Cortex AI de Snowflake opèrent sur des tables Iceberg. Les deux plateformes offrent des intégrations avec MLflow, Weights & Biases et d’autres outils de suivi d’expériences ML. Pour les équipes data, cela signifie que la même infrastructure qui sert leurs tableaux de bord et rapports sert également l’entraînement de leurs modèles d’IA — éliminant le mouvement de données et la duplication qui ralentissaient historiquement les projets ML. Le lakehouse n’est pas simplement un meilleur data warehouse ; c’est la plateforme de données de l’ère de l’IA.

🧭 Radar de Décision (Prisme Algérien)

Dimension	Évaluation
Pertinence pour l’Algérie	Moyenne — l’architecture lakehouse est l’avenir des plateformes de données d’entreprise ; les entreprises algériennes adoptant l’analytique cloud rencontreront ce modèle
Infrastructure prête ?	Partiel — les outils lakehouse (Iceberg, Delta, Spark) sont open source et accessibles via le cloud, mais l’Algérie manque de régions cloud locales ; les plus proches sont la France, l’Espagne et Bahreïn
Compétences disponibles ?	Partiel — les professionnels algériens des données possèdent des compétences en SQL et Python qui se transfèrent ; l’expertise spécifique au lakehouse (Iceberg, Delta, Spark) nécessite un perfectionnement ciblé
Calendrier d’action	12-24 mois — pertinent pour les organisations planifiant la modernisation de leur plateforme de données ; immédiat pour les data engineers individuels développant des compétences prêtes pour l’avenir
Parties prenantes clés	Équipes data d’entreprise, Sonatrach et grandes entreprises publiques avec des besoins analytiques, architectes de plateformes cloud, professionnels en ingénierie des données
Type de décision	Stratégique

En bref : Le data lakehouse devient l’architecture par défaut des plateformes de données d’entreprise, remplaçant à la fois les warehouses traditionnels et les data lakes bruts. Pour les organisations algériennes planifiant leur infrastructure de données, l’adoption de formats de table ouverts (Iceberg ou Delta) évite le verrouillage fournisseur et pérennise les investissements. Pour les data engineers individuels, les compétences lakehouse sont de plus en plus obligatoires pour un positionnement compétitif sur le marché mondial de l’emploi.

L’architecture qui a englouti les deux mondes

Apache Iceberg : le standard ouvert qui conquiert l’industrie

Delta Lake : la fondation de Databricks sous pression

Snowflake vs. Databricks : la guerre des plateformes derrière la guerre des formats

Ce que le lakehouse signifie pour les pipelines IA/ML

🧭 Radar de Décision (Prisme Algérien)

Sources et lectures complémentaires

Laisser un commentaire Annuler la réponse

Most recent

Économie Numérique

Après le départ de Jumia : qui dominera le e-commerce algérien ?

Politique & Réglementation

Vérification de l’âge en ligne : la pression mondiale pour prouver que vous êtes assez âgé pour Internet

Politique & Réglementation

Lois sur l’accessibilité numérique : comment les mandats WCAG et la loi européenne sur l’accessibilité transforment le web

IA & Automatisation

L’IA aux frontières : comment les systèmes douaniers et portuaires algériens passent au numérique

Compétences & Carrières

La stack du développeur algérien : quels langages, frameworks et outils les développeurs algériens utilisent réellement en 2026