C’est un sujet qui revient souvent lorsque l’on parle de vie privée sur le web : les données personnelles, ou data. Dans le domaine, Databricks est une véritable référence puisqu’elle possède l’un des systèmes d’analyse de données les plus performants du marché.
Databricks est une plateforme de traitement de données qui a fait ses preuves et qui est aujourd’hui utilisée par de nombreuses entreprises. Les modèles d’apprentissage automatique proposés par Databricks servent à traiter, transformer et explorer les données des utilisateurs.
À quoi sert Databricks ? Pourquoi les entreprises ont-elles besoin des services proposés par la plateforme ? Qui sont ses collaborateurs ? Plongez avec nous au cœur du Big Data.
Databricks, qu’est-ce que c’est ?
Que ce soit aux États-Unis ou en Europe, les différents scandales liés au traitement des données personnelles ont fait couler beaucoup d’encre. Mais alors, que sait-on vraiment des data et de leur analyse ?
La création
Databricks a été développée par les créateurs d’Apache Spark. Ce moteur d’analyse est utilisé pour le traitement de données à grande échelle. Il bat notamment des record de performance en triant 100 To de données en 23 minutes. Cet exploit, réalisé en 2014, a permis au programme de détrôner Yahoo, qui avait réussi à analyser la même quantité de données, mais cette fois-ci en l’espace de 72 minutes. Spark avait donc réalisé la même performance que Yahoo, mais trois fois plus rapidement et en utilisant “seulement” 206 nœuds (contre 2100 pour Yahoo).
Databricks, fondée entre autres par Ali Ghodsi, vient agir en interaction avec Apache Spark. Dans leur recherche perpétuelle d’innovation, les développeurs ont choisi de proposer un outil basé sur l’IA pour analyser les données récoltées. Avec une interface adaptée aux data scientists, aux ingénieurs, mais aussi aux analystes, Databricks a réussi à séduire un large public et est aujourd’hui utilisée par de nombreuses entreprises.
Comment ça fonctionne ?
La plateforme Databricks est composée de quatre outils open source : Apache Spark, qui traite les grands volumes de données, DeltaLake, couche de stockage de données open source, MLFlow, qui gère le cycle de vie des pipelines et des applications d’intelligence artificielle, et Koalas, qui aide les data scientists dans leurs analyses de grands volumes de données.
Une plateforme complète donc, qui permet aux spécialistes un travail en profondeur, grâce à une gamme d’outil large. Toutes ces fonctionnalités sont regroupées dans une seule interface SaaS.
La force de Databricks, c’est qu’elle est adaptable à des environnements de cloud distribués tels que Microsoft Azure, Amazon Web Services ou encore Google CLoud Platform. Les avantages ? L’exécution d’applications sur des GPU ou des CPU y est beaucoup plus rapide. De plus, il est plus facile pour les entreprises d’analyser de grandes quantités de données.
Dans quel but ?
Les informations personnelles que vous renseignez sur le Web sont une véritable mine d’or pour les entreprises. Ces dernières les utilisent pour vous proposer des contenus ciblés ou des publicités personnalisées. Toutefois, l’énorme quantité de données présente sur le web est difficilement analysable pour les seules sociétés.
C’est là qu’intervient Databricks : la plateforme stock les données des internautes et autres utilisateurs d’applications. Il est ensuite possible, grâce à son système d’apprentissage automatique, de trier les data afin de les analyser plus facilement.
Une fois étudiées, ces données servent aux entrepreneurs, aux publicitaires et aux créateurs de contenus, qui peuvent ainsi proposer des produits ciblés et adaptés à leurs clients.
Data et polémiques
Malgré son efficacité évidente, le traitement des données ne fait pas l’unanimité au sein du débat public. Certains citoyens se sentent atteints dans leur intimité et les systèmes d’analyse de data se retrouvent régulièrement pointés du doigt.
Cambridge Analytica
Le scandale qui a mis en lumière le traitement de données et ses dérives est lié à la société Cambridge Analytica et le géant américain Facebook. La fuite de données personnelles de plus de 87 millions d’utilisateurs Facebook avait fait la une des journaux, aussi bien en France que dans le monde entier.
La société de traitement de données Cambridge Analytica était alors accusée d’exploiter les informations qu’elle avait recueillies pour influencer les intentions de vote en faveur de certains hommes politiques. Les élections présidentielles américaines de 2016 avaient notamment été remises en question lorsque l’on apprenait que le comité de campagne de Donald Trump semblait avoir modifié les intentions de vote de certains électeurs-clé.
Ce scandale avait obligé Facebook à présenter ses excuses. Malgré cela, le géant des réseaux sociaux avait vu la valeur de ses titres boursiers baisser sensiblement.
Le Health Data Hub
L’efficacité des plateformes d’analyse de données n’est plus à prouver. C’est pourquoi le président français Emmanuel Macron a décidé de lancer en 2018 le Health Data Hub, le qualifiant alors d’innovation “préfigurant la médecine de demain”. Le projet a pour objectif de moderniser le système de santé publique en proposant de nouvelles techniques basées sur l’intelligence artificielle.
Les informations liées à la santé des Français doivent être utilisées par des centres de recherches publics, mais aussi par des sociétés privées étrangères telles que Microsoft. Pour accéder à ces informations, ces entreprises et ces centres de recherche doivent toutefois demander l’autorisation à la Cnil (Commission Nationale de l’Informatique et des Libertés).
Malgré cette obligation, de nombreux citoyens français émettent des doutes vis-à-vis de la confidentialité de leurs informations et de la souveraineté de l’État français dans le programme.
Un engouement bien présent
Malgré la réticence de certains internautes et spécialistes, la collecte et l’analyse de données est un marché en plein essor et les plus gros acteurs du Web et de la finance comptent bien en tirer profit.
Une entreprise valorisée à 38 milliards de dollars
Le caractère visionnaire de Databricks a réussi à séduire de nombreux investisseurs lors du tour de table mené par le cabinet Franklin Templeton : Amazon Web Services, Capital G (branche d’investissements de Google), Salesforce, Microsoft, etc. Cette opération a permis à la start-up de collecter 1 milliard de dollars et d’atteindre une valorisation de 28 milliards de dollars.
Les différentes innovations, la montée en puissance de l’entreprise et son catalogue client impressionnant sont les principaux atouts de Databricks. La société compte près de 5 000 clients, dont 40 % d’entre eux qui appartiennent aux 500 plus grosses entreprises américaines recensées par le magazine Fortune.
En août 2021, Databricks bénéficiait d’un nouveau tour de financement réalisé par Counterpoint Global. Ce dernier a apporté 1,6 milliard de dollars à l’entreprise, pour lui permettre d’atteindre une valorisation à 38 milliards de dollars. Parmi les principaux investisseurs, on pouvait compter Amazon Web Services ou encore Salesforce Ventures.
Vers une introduction en Bourse ?
Les excellents résultats de l’application, déjà utilisée par Microsoft Azure, poussent l’entreprise vers une introduction en Bourse. En 2020, la société californienne a vu ses bénéfices passer de 200 à 350 millions de dollars et les différents financements lui ont permis de valider sa “vision d’une plateforme de traitement de données, capable de répondre aux différents besoins, dont l’intelligence artificielle” selon Ali Ghodsi.
Autant dire que le CEO ne compte pas s’arrêter en si bon chemin. Dans un premier temps, l’objectif est d’utiliser ces financements pour continuer son expansion mondiale. Un dernier défi donc pour l’entreprise avant d’entreprendre son entrée en Bourse.
Si cette dernière réussit, les bénéfices réalisés par la startup pourraient grimper de manière drastique. À noter que le marché du traitement de données est ultra-prometteur, puisqu’il devrait augmenter de 142 milliards de dollars au cours de la période 2020-2024, selon une étude réalisée par BusinessWire.
Databricks : informations clés
L’effectif
En 2022, la société de traitement de données Databricks recensait plus de 4 000 employés.
Chiffre d’affaires
En 2022, Databricks a réalisé un chiffre d’affaires de plus d’un milliard de dollars.
Entrée en Bourse
À ce jour, la société Databricks n’est toujours pas entrée en Bourse. Toutefois, tous les voyants sont au vert pour son PDG ALi Ghodsi, qui prépare une introduction dans l’année à venir.
Objectifs business et stratégiques
Grâce aux dernières levées de fonds effectuées, Databricks compte s’étendre encore un peu plus à l’international. Pour ce faire, l’entreprise a pour objectif d’améliorer les fonctionnalités de sa plateforme et de suivre les dernières avancées de l’IA.
Scalabilité
Le marché du traitement de données est en pleine expansion. Les spécialistes de BusinessWire prévoient une augmentation de 142 milliards de dollars sur la période 2020/2024. Étant déjà bien implantée dans le milieu et bénéficiant de la confiance de grandes entreprises telles que Google ou encore T-Mobile, Databricks ne devrait pas rencontrer de problèmes dans son expansion. L’année à venir nous dira si l’introduction en Bourse aura permis `la société d’atteindre ses objectifs.
Mantra/Citation CEO
La meilleure base de données analytique est un lakehouse.