Employée à tort et à travers, l’expression « Big Data » est remplie de mystère. Pourtant, son postulat est simple : la donnée est une matière première qui nécessite d’être stockée et raffinée, dépouillée de ses impuretés, pour pouvoir être exploitée et vendue. Bienvenue dans la dernière étape de la révolution de l’information !
Le Big Data résulte de l’augmentation exponentielle des données qui transitent sur Internet. Ces données se sont multipliées à une vitesse tellement grande qu’elles sont en train de déborder et de devenir impossible à traiter, comme une maladie qui se propagerait tellement vite qu’elle rendrait caducs les traitements conventionnels.
Le Big Data n’est pas une « grosse donnée », une donnée qui prendrait plus de place que les autres. L’expression se réfère au système tout entier, qui est devenu obèse à force de produire des données à n’en plus finir. Ces informations, nous les produisons nous-mêmes, en créant des sites ou des contenus. Mais elles découlent également de nos traces, celles que nous laissons en surfant sur Internet et qui restent pour toujours gravées dans le réseau.
Les chiffres montrent à quel point le volume des données a augmenté :
- De l’aube de la civilisation jusqu’à l’année 2003, l’humanité tout entière a produit 5 exabytes de données.
- En 2011, nous générions 5 exabytes de données tous les deux jours.
- En 2013, ces 5 exabytes étaient produits toutes les 10 minutes.
Cette explosion des données, accentuée par le développement des appareils et objets connectés, ne peut plus être traitée par les moyens utilisés jusque là. L’armée des informations a déferlé sur la planète et forcé les chercheurs à adapter leurs outils de stockage, d’analyse, de traitement et de présentation des données. En créant, au passage, de nouveaux ordres de grandeur.
Le Big Data, que l’on peut traduire par « mégadonnées » ou « données massives », est né de ce besoin de traiter ces quantités astronomiques de données que les systèmes conventionnels ne parviennent plus à absorber. L’expression désigne donc à la fois le volume des données et les moyens de traitement hautement développés qui leur sont appliqués.
Ces données proviennent de partout. Elles viennent des sites visités, des courriers électroniques échangés, des applications utilisées sur smartphone, des conversations au téléphone, des équipements de domotique installés à la maison (volets ou porte de garage électriques, thermostat commandé à distance), des GPS, des téléviseurs ou de tout autre objet connecté.
Si l’ère de l’information, que nous vivons actuellement, est la troisième révolution industrielle, ainsi qu’on le lit parfois, le Big Data pourrait bien en être l’ultime étape. Il s’agit, au minimum, d’un bouleversement profond de notre manière de concevoir l’information ; au maximum, d’une remise en cause complète de ce que nous savions jusque là du traitement des données. Comme si une nouvelle partie du Cosmos s’était découverte à notre regard.
La démarche d’amélioration des stratégies de stockage et de traitement de ce vaste océan de données est communément résumée par ce qu’on nomme « les 5 V» :
- Le volume des données, déjà très important et en augmentation constante ;
- La variété des informations, à la fois de leurs sources et de leurs formes (textes, images, voix, données transactionnelles, etc.) ;
- La vélocité nécessaire à atteindre pour la collecte, le traitement et le partage de ces données ;
- La valeur des données, qui s’avère extrêmement hétérogène ;
- La véracité ou la fiabilité des informations reçues, puisqu’elles peuvent être partielles, mensongères ou artificielles.
Les outils de traitement doivent prendre en compte ces cinq points essentiels.
Ce sont d’abord les géants du web, tels que Google, Yahoo et Facebook, qui ont commencé à déployer des technologies permettant le stockage, l’analyse et la redistribution des données massives. Ces entreprises ont très tôt compris l’enjeu premier du Big Data : brutes, les données ne servent à rien. À l’instar du pétrole, elles doivent être raffinées avant de pouvoir être exploitées à bon escient.
Deux familles de techniques se sont développées pour répondre à ces besoins : le stockage d’une part, notamment avec l’expansion du Cloud Computing (c’est le réseau lui-même qui entrepose les informations) ; le traitement ajusté d’autre part, qui consiste à concevoir des outils de raffinage des données brutes.
De nombreuses entreprises se sont spécialisées dans le domaine du traitement et d’un partage pertinent des données, comme B&C Tech en France. Et le secteur est particulièrement porteur, puisque l’enjeu est d’importance. À quoi servent, en effet, ces données brutes qui sont les matériaux du Big Data ? À mieux connaître les consommateurs (comprendre : tous ceux qui surfent sur Internet et utilisent des objets connectés), dans le but de leur proposer des produits adaptés de plus en plus précisément à leurs besoins.
Prenons deux exemples d’applications marketing du Big Data :
- Vous vous renseignez auprès d’un site marchand sur le prix d’un billet d’avion pour New York. Au terme de votre recherche, vous n’avez rien acheté, et vous vous déconnectez du site en question. Lorsque vous ouvrez votre page Facebook, le réseau affiche d’autres sites marchands proposant des billets d’avion pour la destination que vous venez de consulter. Vos données de navigation ont été récupérées, analysées, puis transmises à des clients qui utilisent ces informations pour vous renvoyer des offres adaptées.
- Vous possédez un frigo connecté. Il contient essentiellement des produits laitiers, du poisson et des légumes, car vous êtes végétarien. Étrangement, vous recevez sur votre smartphone des publicités pour des produits qui correspondent à vos habitudes alimentaires… Votre frigo vous a trahi, il a transmis les données sur son contenu, et ces mêmes données ont été vendues à des sites marchands qui reviennent ensuite vers vous.
- Ces exemples peuvent avoir quelque chose d’inquiétant. Comme si le Big Data matérialisait d’une façon inattendue les craintes orwelliennes d’un Big Brother qui serait constamment en train de regarder par-dessus votre épaule. Pourtant, il n’y a pas de quoi voir peur pour le moment : tout est question d’équilibre. Et si cet équilibre est respecté, nos vies privées ne devraient pas souffrir de l’emprise du Big Data sur notre société.
Après tout, même pour Mark Zuckerberg, qui disait pourtant le contraire il y a encore quelques, la vie privée est une donnée qu’il faut protéger, et ne pas laisser être traitée, analysée et diffusée par autrui. À chacun de rester prudent et de ne pas inviter le Big Data chez soi.
LES COMMENTAIRES SONT EN DOFOLLOW