Les 5 grands défis de la Big Data

Prendre la data à bras le corps, c’est comprendre sa raison d’être et maitriser ses arcanes. Et parce que nous n’en sommes qu’à la genèse, il est bon de débuter directement avec les bonnes bases…

Promesse d’un monde meilleur, « smart », efficace, où le hasard n’aurait presque plus sa place pour les uns. Avènement apocalyptique d’un Internet of Everything omniprésent et consommateurs asservis à des données qui leur échappent, pour les autres… Entre ces deux visions fantasmées de la Big Data, une réalité : nous n’en sommes encore qu’aux balbutiements de la discipline, les verrous technologiques bridant encore son potentiel sont multiples et loin d’être anecdotiques ! Au delà du défi des « 4V » (Volume, Variété, Vélocité, Véracité), le monde de la recherche est en pleine effervescence tant les enjeux sont protéiformes et majeurs. Tour d’horizon des champs d’investigation des prochaines années.

Enjeu n°1 : l’hygiène des données

C’est le cauchemar de tous les DSI ou directeurs marketing qui veulent faire du Business Intelligence : réaliser que quel que soit l’outil de traitement, leur vrai problème réside dans la piètre qualité des données elles-mêmes. D’où une première phase éreintante mais indispensable : faire le ménage, « nettoyer » les données. Un vrai marché, souvent oublié, toujours sous-estimé mais immense tant cette pratique n’a rien de naturel dans la pratique actuelle des entreprises.

Enjeu n°2 : le traitement automatisé de données hétérogènes

Comment croiser des données venant de bases éclatées, de fouilles sur le web, dans des formats différents, de manière intelligente ? Comment indexer et agréger des données ouvertes automatiquement ? L’indexation automatisée d’un document simple demeure perfectible. Et même si beaucoup d’expériences avancent sur le sujet de l’indexation vidéo, le chapitrage intelligent d’un film est encore impossible. L’autre grand défi de l’analyse des données, c’est le paramétrage dynamique des algorithmes de fouille. Sur les grandes masses de données, par exemple en génétique, le traitement des données peut prendre des mois : pouvoir figer le processus en cours de route pour repérer les erreurs de paramétrage et les corriger, sans devoir relancer complètement l’algorithme, est un des enjeux majeurs de la recherche actuelle. La notion même d’analyse en temps réel en dépend : on en est loin alors qu’elle est dans certains domaines indispensable.

Enjeu n°3 : transformer l’expérience de la Big Data

Au cœur de l’avenir de la Big Data, la question de la navigation et de la visualisation des données apparait décisive. Compte tenu de la progression exponentielle des volumes de data1, pouvoir naviguer dans les données grâce à de nouveaux terminaux et surtout de nouvelles interfaces devient un enjeu clé pour la qualité des résultats et leur compréhension. Comment en effet imaginer de rester dans le cadre contraint de l’écran d’ordinateur et de la souris quand on manipule de telles masses de données ? Les nouvelles technologies abondent : réalité augmentée (RA), réalité virtuelle, dispositifs immersifs (des masques Oculus aux lunettes de RA en passant par les écrans 3D tactiles). Mais de l’interaction à l’affichage jusqu’à la manière de représenter les données, tout doit être cohérent et optimisé en fonction du public utilisateur (décideur, scientifique, grand public…). Les chercheurs travaillent donc sur des interfaces naturelles, permettant de « jouer » intuitivement avec les données, pour fluidifier la navigation et améliorer l’efficacité des fouilles.

Les outils de visualisation eux mêmes sont un enjeu clé. Comme le révèle une étude nord-américaine récente2, l’adoption des pratiques Big Data en entreprise est cruciale : or, cette adoption ne se fera naturellement dans les organisations que si les outils sont « clairs et bien conçus, avec de fortes qualités visuelles ». Actuellement, au delà de rares algorithmes (l’incontournable Gephi, en open source) réservés aux data scientists et de logiciels comme MATLAB (boîte à outils graphique pour scientifiques et ingénieurs) ou TABLEAU (version améliorée des tableurs dédiés au Business Intelligence), la pauvreté créative des outils de datavisualisation et leur caractère très classique limite totalement la puissance des images obtenues et donc leur impact, notamment dans les outils d’aide à la décision. Certes, les artistes (le précurseur Mark Lombardi ou encore tous les projets qu’on retrouve sous Visual.ly) et les designers graphiques s’attellent depuis longtemps avec enthousiasme au sujet. Ce traitement graphique, s’il révèle bien tout le potentiel des données, demeure encore artisanal et limite l’emploi de la datavisualisation aux grands comptes.

L’ajout d’une dimension (souvent temporelle comme dans le formidable Chronozoom), la « 3D », fait débat. La communauté du dataviz est majoritairement contre. Pourtant, pouvoir interagir naturellement en immersion avec des données sans être limité à 2 dimensions est la prochaine frontière de la Big Data : c’est une voie naturelle pour nos chercheurs tant les bénéfices sont clairs. Au quotidien, nos interactions avec l’environnement utilisent presque toutes trois dimensions ; les recherches sur le cerveau ont par ailleurs démontré que la visualisation en 3D stimule des zones différentes de celles sollicitées par une vision en 2D, accélérant la compréhension et l’assimilation. La question des représentations abstraites est là aussi un frein, mais les verrous pourraient tomber à l’horizon 2020.

Enjeu n°4 : sécurité et anonymisation

La Big Data permet aujourd’hui d’agréger des bribes d’informations minuscules dispersées sur Internet et d’obtenir le portrait et l’adresse d’un individu sans même utiliser les cookies. Avec la généralisation de l’Internet des objets, la sécurité des données s’annonce donc comme la grande question de l’avenir de la Big Data. Si les entreprises en sont de plus en plus conscientes, le consommateur n’a pas encore réalisé la portée des failles de sécurité de tous ces objets qui vont constituer son quotidien. Pourtant, la confiance est au cœur de ces nouveaux marchés. La e-santé est probablement l’exemple le plus frappant de ces enjeux : que ce soit pour l’amélioration de la connaissance médicale ou l’aide au diagnostic, le croisement et donc les échanges de données sont indispensables et nécessitent une encryption et une traçabilité fiables. Par ailleurs, les techniques d’anonymisation sont tout aussi décisives : elles rendent plus acceptables à l’usager l’utilisation de données très personnelles mais plus on pousse l’anonymat, plus on retire des informations riches et porteuses. Anonymiser sans perdre cette richesse devient donc un enjeu de recherche majeur pour que la Big Data médicale soit porteuse de progrès. Paradoxalement, la Big Data peut aussi améliorer la sécurité en permettant d’anticiper les attaques informatiques à partir de comportements isolés…

Le Datatainment, ou comment remettre l’humain au cœur de la Big Data

Pour conclure cette vision plus R&D de la Big Data, une dernière tendance lourde qui déterminera son niveau de réussite : comment l’individu peut-il se réapproprier toutes les données qu’il génère, consciemment ou pas, comment faire rentrer les données dans notre quotidien ? C’est l’enjeu d’une certaine banalisation de la Big Data parfois intitulée le datatainment, vision plus ludique de la Big Data, puisqu’il s’agit notamment d’incarner davantage les données, de les personnifier et de créer de nouveaux modes de représentation pour créer une empathie, voire un lien émotif. Le projet de la FING, abouthedata.com ou des expériences plus prospectives comme celles de l’Ecole de Design de Nantes (le dataquarium4), ouvrent la voie à cette étape indispensable pour le succès global de la Big Data : l’effacement de la frontière entre ceux qui génèrent les données et ceux qui les « exploitent ».

Avec la collaboration de Grégoire Cliquet, Gaëtan Le Guelvouit, Yannick Morvan et Jérôme Royan. 15 exaoctets c’est le volume d’information numérisée produite par l’humanité depuis ses débuts jusqu’en 2003. Fin 2011, 5 exaoctets étaient générés en 2 jours. Fin 2013, 5 exaoctets, c’est ce qui est généré en 12 minutes… 2Mc Kinsey Quaterly, printemps mars 2014, Bad Brown, David Court, Tim Mc Guire. 3Projet de la société Acxiom qui permet au consommateur d’accéder, d’éditer et de limiter les données collectées sur lui par les marques. 4Intranet avec datavisualisation dynamique via des avatars, par et pour les étudiants de l’Ecole de Design de Nantes en 2007. L’expérience se prolonge actuellement avec Crystal Campus.

Emmanuelle Garnaud-Gamache

Illustrations Atelier Iceberg

Article paru dans la revue digitale n°9 : La Data, et moi, et moi… émois ?