Big Data

De WIKOM
Technologies collaboratives ⌂ retour Ecriture Structurée

Définition

"On parle depuis quelques années du phénomène de big data , que l’on traduit souvent par « données massives ». Avec le développement des nouvelles technologies, d’internet et des réseaux sociaux ces vingt dernières années, la production de données numériques a été de plus en plus nombreuse : textes, photos, vidéos, etc. Le gigantesque volume de données numériques produites combiné aux capacités sans cesse accrues de stockage et à des outils d’analyse en temps réel de plus en plus sophistiqués offre aujourd’hui des possibilités inégalées d’exploitation des informations. Les ensembles de données traités correspondant à la définition du big data répondent à trois caractéristiques principales : volume, vélocité et variété."[1]

Big Data : Définition
Big Data : Définition[2]

Les V

Le terme "Big Data" fait référence à des ensembles de données extrêmement volumineux, complexes et variables qui dépassent souvent la capacité des systèmes informatiques traditionnels à les gérer et à les analyser efficacement. Le Big Data est caractérisé par les "trois V" suivants :

  • Volume : Le Big Data implique des quantités massives de données. Ces données peuvent provenir de diverses sources telles que les transactions commerciales, les réseaux sociaux, les capteurs, les dispositifs IoT (Internet des objets), les données générées par les utilisateurs, etc. La taille des ensembles de données est souvent mesurée en téraoctets, pétaoctets, voire exaoctets.
  • Variété : Le Big Data peut prendre différentes formes, notamment des données structurées, semi-structurées et non structurées. Les données structurées sont organisées de manière tabulaire (par exemple, bases de données relationnelles), les données semi-structurées ont une certaine structure mais ne rentrent pas parfaitement dans des tables (par exemple, JSON, XML), tandis que les données non structurées, comme les vidéos, les images, les textes libres, ne suivent généralement aucune structure prédéfinie.
  • Vélocité : Le Big Data est généré à des vitesses élevées. Les données peuvent être créées en temps réel ou à un rythme très rapide, comme dans le cas des flux de données en continu. La capacité à traiter et à analyser ces données en temps réel est souvent cruciale dans un environnement Big Data.

Au fil du temps, d'autres caractéristiques ont été ajoutées pour décrire le Big Data, telles que la variabilité (la capacité à gérer des données dont les caractéristiques changent avec le temps) et la véracité (la qualité des données et la confiance dans leur précision).

Pour traiter et tirer des informations significatives de ces ensembles de données massifs, de nouvelles technologies et méthodologies ont émergé, notamment le traitement parallèle, le stockage distribué, les bases de données NoSQL, les technologies de traitement en temps réel, l'apprentissage automatique, etc. Le Big Data est utilisé dans une variété de secteurs, y compris le commerce, la santé, la finance, les sciences, la recherche, et bien d'autres, pour prendre des décisions éclairées, découvrir des tendances et optimiser les opérations.

https://infonet.fr/lexique/definitions/big-data/

  • la vélocité : la grande rapidité à laquelle les données sont créées, stockées et analysées
  • le volume : il n’y a pas de fin, le nombre de données ne cesse de croître
  • la variété : elles peuvent provenir de différentes sources et se présenter sous différentes formes
Hilbert InfoGrowth
Hilbert InfoGrowth[3]

Infrastructure

Les infrastructures Big Data sont constituées de technologies matérielles, logicielles et réseau conçues pour gérer, stocker, traiter et analyser des ensembles de données massives et complexes. Ces infrastructures sont essentielles pour tirer parti des avantages du Big Data en fournissant la puissance de calcul et les ressources nécessaires pour manipuler d'énormes volumes de données. Voici quelques composants clés des infrastructures Big Data :

  • Stockage Distribué : Les systèmes de stockage distribué sont utilisés pour stocker des volumes massifs de données sur plusieurs nœuds ou serveurs. Hadoop Distributed File System (HDFS) est un exemple courant de système de stockage distribué dans l'écosystème Hadoop.
  • Traitement Distribué : Les frameworks de traitement distribué permettent de traiter des données à grande échelle en parallèle sur un cluster de serveurs. Apache Hadoop MapReduce est un exemple classique de framework de traitement distribué, mais d'autres, comme Apache Spark, sont également largement utilisés.
  • Systèmes de Gestion de Base de Données NoSQL : Les bases de données NoSQL, telles que MongoDB, Cassandra, et Couchbase, sont utilisées pour gérer des données non structurées ou semi-structurées, offrant une flexibilité supérieure à celle des bases de données relationnelles traditionnelles.
  • Systèmes de Gestion de Flux de Données : Les infrastructures Big Data doivent souvent traiter des flux continus de données en temps réel. Des systèmes comme Apache Kafka sont utilisés pour la gestion des flux de données en temps réel.
  • Systèmes de Gestion de Cluster : Les gestionnaires de cluster, tels que Apache Hadoop YARN et Kubernetes, sont utilisés pour coordonner et gérer les ressources informatiques sur des clusters de serveurs.
  • Systèmes de Gestion de Configuration : Des outils tels que Apache ZooKeeper sont utilisés pour la gestion de la configuration, la synchronisation et la gestion des services distribués.
  • Outils d'Analyse et de Visualisation : Des outils d'analyse de données tels que Apache Spark MLlib, TensorFlow pour l'apprentissage automatique, et des outils de visualisation tels que Tableau, sont souvent intégrés pour extraire des informations significatives à partir des données.
  • Sécurité et Gestion d'Accès : Les solutions de sécurité, telles que Kerberos, sont essentielles pour protéger les données dans des environnements Big Data. Des mécanismes de gestion des accès et de gouvernance sont également mis en œuvre pour assurer la conformité.
  • Cloud Computing : De nombreuses entreprises optent également pour des solutions de cloud computing, telles qu'Amazon Web Services (AWS), Microsoft Azure, et Google Cloud Platform, pour déployer leurs infrastructures Big Data sans avoir à gérer directement l'infrastructure matérielle.

Ces composants peuvent être utilisés ensemble pour créer des architectures Big Data adaptées aux besoins spécifiques d'une organisation. L'évolution rapide du domaine du Big Data a conduit à l'émergence de nombreuses technologies et solutions, et les organisations peuvent choisir les composants qui correspondent le mieux à leurs besoins particuliers.

Data lake

https://www.lebigdata.fr/data-lake-definition

Applications

https://www.lehibou.com/communaute/qui-utilise-big-data

Applications du Big Data
Applications du Big Data[4]

Familles de calcul

Dominique Cardon, tableau illustrant les quatre familles de calcul différentes (2015) Capture d’écran tirée de la version électronique de l’ouvrage de Dominique Cardon, À quoi rêvent les algorithmes? Nos vies à l’heure des big data, Paris, Seuil, 2015, p. 91
Dominique Cardon, tableau illustrant les quatre familles de calcul différentes (2015)  [5]

https://fr.slideshare.net/dominiquecardon/les-mtriques-de-visibilit-a-ct-audessus-dedans-endessous-du-web

Références

  1. https://www.cnil.fr/fr/definition/big-data
  2. https://visionarymarketing.com/fr/2013/10/big-data-exemples/
  3. Hilbert, M., & López, P. (2011). The world’s technological capacity to store, communicate, and compute information. science, 332(6025), 60-65.
  4. https://www.hbrfrance.fr/chroniques-experts/2014/05/2273-quelles-applications-concretes-pour-le-big-data/
  5. Capture d’écran tirée de la version électronique de l’ouvrage de Dominique Cardon, À quoi rêvent les algorithmes? Nos vies à l’heure des big data, Paris, Seuil, 2015, p. 91