Sur le front des data management platform, la guerre fait rage. On distingue d'un côté les offres des fournisseurs de cloud : Amazon Redshift pour AWS, Azure Synapse pour Microsoft et BigQuery pour Google. Et de l'autre les solutions orientées cloud, mais agnostiques en termes de provider. Un terrain sur lequel s'affrontent principalement Databricks et Snowflake.

Comparatif des data management platform
  Monocloud Multicloud Crosscloud data mesh Data warehouse Data lake Data science
Amazon Redshift* x     x x  
Azure Synapse Analysis* x     x x x
Databricks   x   x x x
Oracle Database x     x   x
Google BigQuery*   x x x   x
Snowflake   x x x x  

*Les offres des providers de cloud s'intègrent à leur plateforme d'IA respective : Sagemaker pour Amazon, Azure Machine Learning pour Microsoft et Vertex AI pour Google.

Vous recherchez une solution orientée data warehouse SQL et multicloud (AWS, Microsoft Azure et Google Cloud) ? Snowflake est la solution toute trouvée. Sachant que, dans le même temps, elle est aussi taillée pour gérer les données semi-structurées, au format XML ou Json. "L'un des points forts de cette plateforme réside dans sa logique data mesh. Elle gère la gouvernance des données quels que soient le fournisseur et la région cloud sous-jacente", explique Ilyes Mehaddi, tech lead data architecture cloud chez Keyrus. Une aubaine pour mettre en œuvre une stratégie multicloud.

Snowflake : data platform avant tout

Sur le volet intelligence artificielle, Snowflake n'inclut pas nativement la couche data science. L'éditeur du Montana reste centré sur le management des données. Il préfère s'appuyer pour l'IA sur des briques de machine learning tierces qu'il intègre : DataRobot, Dataiku, H20.ai, Amazon Sagemaker… Dans ses versions les plus récentes, Snowflake introduit une déclinaison de Spark (baptisée Snowpark) pour orchestrer les calculs distribués et ainsi supporter les traitements temps réel sur des volumes massifs de données.

"Databricks est aussi très orienté IA et MLOps, et va jusqu'au feature store"

Egalement multicloud mais avec une approche data mesh moins aboutie, Databricks s'adosse historiquement à une infrastructure Spark. Son moteur a progressivement évolué pour recouvrir en parallèle le concept de data warehouse. Résultat : Databricks se présente aujourd'hui comme une base de données hybride, ou lakehouse, capable de combiner à la fois data lake et entrepôt SQL. "Databricks est aussi très orienté IA et MLOps, en allant jusqu'au feature store", constate Jean-François Guilmard, partner chez Octo Technology (groupe Accenture).

BigQuery : cap sur l'inter-cloud

Du côté des fournisseurs de cloud, Microsoft propose avec Azure Synapse Analysis, un environnement technologiquement relativement proche de Databricks, combinant couche SQL et Apache Spark. Quant à Amazon Redshift et Google BigQuery, ils se présentent tous deux comme des entrepôts de données à part entière. Face à Microsoft et Amazon, la solution de Google ressort du lot pour trois raisons. La première ? Elle est serverless et permet par conséquent de se délester de l'administration de l'infrastructure IT sous-jacente. La seconde ? Sa déclinaison BigQuery Omni va jusqu'à analyser simultanément des données stockées sur plusieurs clouds sans avoir à les déplacer ou les copier, qu'elles soient basées sur AWS, Azure ou Google Cloud bien sûr. Et last but not least, BigQuery s'oriente comme Snowflake vers un logique data mesh via le composant Dataplex.

Reste la question délicate de la prédictibilité des coûts. "Avec Databricks et Snowflake, on sait généralement assez précisément ce qu'on consommera comme ressources par hypothèses en fonction du cas d'usage ciblé", reconnait Ilyes Mehaddi chez Keyrus. Et Jean-Francois Guilmard de prévenir : "Le dimensionnement automatique des capacités machine, certes synonyme de flexibilité, peut néanmoins faire rapidement monter la facture si on ne fait pas attention." Face à ce dilemme, Snowflake et Google BigQuery proposent par exemple des dispositifs pour fixer des limites de consommation à l'autoscaling.

Enfin, des marges de négociation importantes peuvent exister sur les prix en fonction des providers, notamment au regard de l'historique de consommation. Comme souvent, les bons clients sont récompensés.


Source link