Chaque minute, 204 millions de mails sont échangés, 47000 applications mobiles sont téléchargées, 3000 photos sont mises en ligne - et 20 personnes sont victimes d'usurpation d'identité. Au total, plus d'un demi teraoctet[1] de données sont échangés. Et ces nombres continueront à augmenter avec l'évolution de l'usage d'internet mais surtout celui de ses « usagers » - il y aura en effet bientôt plus d'objets que de personnes reliés à internet. Votre voiture signalera au concessionnaire un besoin de maintenance évitant une panne et aidera votre assureur à vous proposer une couverture plus adaptée à votre conduite. Votre machine à laver pourra mettre à jour un programme de lavage plus économe. Le réseau électrique indiquera à chaque véhicule électrique le moment le plus opportun pour se recharger en évitant les files d'attente aux bornes. Tous les secteurs bénéficieront ainsi du Big Data, c'est à dire de l'analyse de masses considérables de données d'origines (réseaux sociaux, blogs, capteurs...) et de formats (textes, videos, géolocalisation ...) multiples.
Quel impact sur la sécurité ?
Le potentiel de ces technologies est considérable, mais il soulève des craintes en matière de sécurité qui le sont tout autant : si les données, autrefois limitées à l'usage pour lequel elles étaient collectées (comme identifier son client pour un commerçant) voient leur utilisation se multiplier à l'infini, ne va-t-on pas aussi multiplier les risques à l'infini ? Le développement des solutions big data reposant sur de grandes masses de données hébergées par des solutions matérielles et logicielles diverses et déployées sur des réseaux parfois externes, ne va-t-il pas augmenter à la fois les points de vulnérabilité, et l'ampleur des conséquences en cas d'attaque ?
Le potentiel de ces technologies est considérable, mais il soulève des craintes en matière de sécurité qui le sont tout autant : si les données, autrefois limitées à l'usage pour lequel elles étaient collectées (comme identifier son client pour un commerçant) voient leur utilisation se multiplier à l'infini, ne va-t-on pas aussi multiplier les risques à l'infini ? Le développement des solutions big data reposant sur de grandes masses de données hébergées par des solutions matérielles et logicielles diverses et déployées sur des réseaux parfois externes, ne va-t-il pas augmenter à la fois les points de vulnérabilité, et l'ampleur des conséquences en cas d'attaque ?
Notons d'abord qu'il est souvent plus aisé d'accéder à une donnée sensible grâce à des vulnérabilités humaines (obtenir par ruse des informations au téléphone, s'introduire dans un bâtiment sous une fausse identité...) qu'en tirant partie de failles techniques. D'autre part, les bases de données classiques concentrent souvent dans un même lieu des données structurées alors que les données du Big Data se présentent à prime abord sous des supports distribués et peu accessibles. Enfin, un fichier client peut se copier sur la carte mémoire d'un téléphone. Ce n'est pas le cas pour une masse de données de plusieurs pétaoctets, dont le temps de téléchargement est également prohibitif (plusieurs années). Le Big Data rend par ailleurs possible de nouveaux outils [2] qui utilisent sa puissance pour déjouer les attaques des pirates, par exemple en détectant en temps réel les transactions bancaires suspectes.
Plus de moyens de contrôle
Soulignons enfin que, géré de façon professionnelle, un projet de Big Data s'accompagne généralement d'une augmentation des moyens consacrés à la sécurité de données au regard des risques potentiels. Il existe en effet de nombreuses techniques pour protéger l'anonymat, qu'il s'agisse de méthodes de collecte (confier le traitement de données ne devant pas être rapprochées à des entités indépendantes), d'algorithmes de hachage (qui permettent de masquer l'identité des personnes) ou de contraintes portant sur les requêtes pour rendre impossibles l'identification des personnes, même indirecte.
Une régulation compétitive pour pérenniser notre modèle de protection
Le développement du Big Data fait l'objet d'une concurrence mondiale intense entre entreprises et entre Etats. Pour avoir une chance d'en influencer les normes, notamment de protection des données individuelles, nous devrons être à la fois présents et compétitifs. Pour cela, il faudra relever trois défis:
Le développement du Big Data fait l'objet d'une concurrence mondiale intense entre entreprises et entre Etats. Pour avoir une chance d'en influencer les normes, notamment de protection des données individuelles, nous devrons être à la fois présents et compétitifs. Pour cela, il faudra relever trois défis:
- Le défi de la vision et des moyens
Alors que le volume des données augmente de 40 % par an, les budgets informatiques progressent dix fois moins vite. Nous manquons de compétences propres au Big Data, qu'il s'agisse de « data scientists » disposant à la fois de compétences statistiques, en programmation et en architecture informatique, de « business analysts » capables de traduire les résultats de ces analyses en opportunités commerciales, ou de spécialistes en « Big Sécurité ». Par ailleurs, hormis les directeurs informatiques, rares sont les membres de comité exécutif maîtrisant ces enjeux. De ce fait, très peu d'entreprises disposent d'une feuille de route operationnelle en matière de Big Data.
- Le défi de la sécurité des données
Le Big Data manipule des données qui doivent être protégées conformément à une législation à la fois fluctuante dans le temps et selon les Etats. Une fuite de données sensibles peut entacher durablement l'image de marque d'une organisation et causer de coûteux contentieux. Ces risques peuvent tout à fait être maîtrisés par une conception adaptée des projets, et grâce à des audits limitant les dérives ultérieures. Mais cette maîtrise ne s'improvise pas, et sera difficile à réaliser sans l'appui d'un partenaire ayant développé une compétence forte (par exemple, un fournisseur d'équipements) ou d'un conseil spécialisé.
- Concilier régulation et stratégie d'innovation
Dans le domaine du téléphone mobile, l'Europe a su faire de sa norme GSM un avantage compétitif permettant un développement du mobile plus rapide qu'aux Etats-Unis. A l'inverse, c'est en grande partie en raison de l'existence de langues multiples en Europe que les initiatives de moteurs de recherche européens ont rapidement été dominées par leurs concurrents américains, capables de s'adresser avec le même produit à des centaines de millions d'utilisateurs parlant la même langue. En matière de Big Data, les entreprises sont en Europe dans le deuxième cas, soumises à un patchwork de lois conçues dans une vision traditionnelle de collecte, de stockage et d'utilisation prévisible et ordonnancée des données, difficilement transposable aux données massives. Elles se battent face à la compétition mondiale avec des handicaps que n'ont pas leurs concurrents. Un travail important est donc encore nécessaire pour définir un cadre qui soit à la fois protecteur des libertés individuelles, et favorable au développement du Big Data, tout en profitant des atouts offerts par la technologie pour maintenir - et même souvent renforcer - ce niveau de protection.
Au total, l'efficacité et la réactivité avec laquelle nous adopterons, au niveau Européen, une telle approche de la régulation du Big Data déterminera notre capacité à développer des champions en Europe - centres de recherche de groupes mondiaux, ou entreprises européennes. Dans le cas inverse, ces développements se feront ailleurs, et nous serons triplement perdants : nous perdrons des emplois à valeur ajoutée, nous passerons à côté de l'essentiel des bénéfices économiques et nous n'aurons aucune prise sur les standards de protection de données qui nous seront imposés de l'extérieur.
[1]Un teraoctet = mille gigaoctets = mille milliards de caractères
[2]Voir par exemple le site de la CNIL