Google Cloud Next 21 s’est tenu du 12 au 14 octobre dernier. Comme à l’accoutumée, de nombreuses annonces ont été faites pour répondre aux problématiques des entreprises.
Avant d’entrer dans le vif du sujet, un rapide état des lieux s’impose. Même si ce n’est pas nouveau, les défis à relever sont nombreux et de taille :
contexte hybride et multi-cloud de plus en plus prononcé
sources de données très disparates, organisées en silos, rendant l’accès et l’exploitation fastidieux
besoin d’extraire des informations fiables et décisives, et en temps réel
besoin de maîtriser les coûts qui peuvent très rapidement s’envoler
niveaux de qualité, de sécurité et de gouvernance diffus, et ne permettant pas aux entreprises d’extraire toute la valeur de leurs données.
Trouver des solutions à ces problématiques revient à répondre à ces quelques questions :
comment briser les silos et décloisonner les données et les équipes
comment uniformiser les niveaux de qualité, de sécurité et de gouvernance des données où qu’elles se trouvent
comment proposer des environnements de travail unifiés pour gagner en productivité et en agilité
comment démocratiser le travail de la donnée en privilégiant le low-code et le self-service
Vertex AI Workbench, au sommet
Il s’agit d’un IDE basé sur Jupyter Notebooks et intégré avec BigQuery, Dataproc, Spark, VertexAI et Looker, entre autres. Cette plateforme unifiée annoncée en preview offre un écosystème complet pour l’exploration, l’expérimentation, le déploiement de modèles ML, tout en adoptant une approche MLOps depuis une interface unique. Google propose 2 options pour le choix de l’instance Jupyter :
une instance complètement managée par Google
une instance hautement personnalisable par l’utilisateur, idéale lorsque l’on a des besoins spécifiques
Les avantages annoncés sont les suivants :
jusqu’à 80% de code en moins pour construire, entraîner et déployer les modèles de machine learning
Entraînement et déploiement de modèles jusqu’à 5 fois plus rapide que les traditionnels notebooks
lancement de plusieurs kernels depuis une seule et même instance
programmation des notebooks de manière ponctuelle pour les besoins ad hoc, ou de manière récurrente
modification de la configuration matérielle sans avoir à arrêter l’instance pour une meilleure gestion des coûts.
Voici un codelab pour aller plus loin.
Spark on Google Cloud : une étincelle, plusieurs possibilités
Il s’agit tout simplement Apache Spark serverless sur Google Cloud. Annoncé en preview, il devrait être disponible en GA d’ici quelques semaines. Il ne remplace pas Dataproc, mais cible davantage les entreprises qui entament l’exploration et l’exploitation de leurs données en leur proposant un outil serverless et entièrement managé. Il sera intégré à BigQuery, Vertex AI et Dataplex ce qui signifie qu’il sera possible de lancer des jobs Spark depuis ces interfaces. Il sera également possible de choisir entre une implémentation serverless, GKE ou Compute Engine.
Google cible un éventail d’utilisateurs large, y compris (et surtout) ceux ne maîtrisant pas la gestion de l’infrastructure.
Les avantages annoncés sont les suivants :
Élimination de la charge de travail liée à la gestion des clusters grâce à l’auto-provisioning et l’autoscaling, permettant ainsi aux utilisateurs de se concentrer sur leur cœur de métier
Différents choix d’implémentation en fonction selon les besoins, le degré de maturité et les compétences des équipes
Réduction des coûts, notamment pour la version serverless dont la facturation se fait à l’usage. Plus besoin de se soucier du décommissionnement des clusters
Lancement de jobs Spark “en 2 clics”, comme on lance une requête BigQuery
Pour aller plus loin, cet article présente un aperçu de l’intégration avec Bigquery, VertexAI & Dataplex.
BigQuery Omni, présent !
BigQuery Omni était très attendu et en voici les raisons :
simplifie l’analyse croisée dans un contexte multi-cloud depuis une interface unique
facilite l’accès à l’ensemble des données distribuées à travers différents storage (AWS, Azure, GCS) sans avoir à les déplacer ou dupliquer, garantissant leur fraîcheur et leur cohérence.
réduit les coûts induits par la réplication et la migration des données vers la plateforme Google
Ce n’est pas tout, puisque 2 nouvelles features ont été annoncées lors de la démo. Elles seront disponibles en preview en 2022 :
Authorized External Tables : cette feature permettra d’appliquer des tags de sécurité au niveau de la table, de la ligne et/ou de la colonne depuis BigQuery sur l’ensemble des données, y compris celles stockées sur AWS et Azure. Cela permet d’unifier les politiques de sécurité et de gouvernance. Interroger des données dont l’accès a été restreint affichera un message d’erreur.
Cross-Cloud Transfer : cette feature devrait permettre d’importer les résultats des requêtes depuis les storage tiers vers BigQuery via une commande SQL. De quoi dépasser les limitations de volume actuelles et celles induites par le recours à des tables externes.
Je vous recommande cet article qui contient aussi la démo réalisée pour l’occasion.
Dataplex, le tisseur de liens de vos données distribuées
Déjà présentée en mai dernier lors du Google Cloud Summit, la solution de gestion et de gouvernance des données distribuées sera disponible en GA dans les prochaines semaines. Dataplex permet d’organiser les données stockées dans GCS et BigQuery sous forme de domaines de données. Il devient alors possible de gérer, contrôler et appliquer des règles de sécurité et de gouvernance de manière centralisée sur des données distribuées.
Dataplex présente biens des avantages :
l’accès est rendu facile, rapide et commun à tous les utilisateurs. C’est le principe du self-service.
possible de mettre en place des dispositifs de contrôles unifiés et cohérents ainsi que des règles de gouvernance sur l’ensemble des données ou encore en fonction des domaines de données.
bénéficie des capacités AI/ML de Google, notamment en automatisant l’extraction des métadonnées et les contrôles de qualité. L’ensemble des métadonnées sont standardisées et regroupées dans un métastore. Elles sont également disponibles depuis BigQuery, Dataproc Metastore et Data Catalog.
Le plus : à combiner avec BigQuery Omni dans un contexte multi-cloud.
En conclusion
En proposant des services intégrés de manière native, Google propose une Cloud Data Platform qui se veut être riche, performante et flexible.
On le voit bien à travers ces annonces, l’heure est à l’unification, l’intégration et la simplification des outils et des pratiques afin d’accéder aux données de manière plus simple, plus rapide et plus agile.
Et s’il fallait simplement résumer ces annonces en quelques mots :
Vertex AI Workbench
Spark on Google Cloud : Apache Spark serverless sur Google Cloud.
BigQuery Omni : le moteur d’analyse cross-cloud et multi-cloud.
Dataplex : la data fabric intelligente pour les gouverner toutes.