Unique dans la foule par nos conversations téléphoniques…

Une étude [1] publiée le 25 mars 2013 dans la revue Nature réalisée par une équipe de chercheurs du MIT (Massachussetts Institute of Technology) et de l’Institut Catholique de Louvain (Yves Alexandre de Montjoye, César A Hidalgo, Michel Verleysen) a confirmé un sentiment déjà partagé par de nombreux chercheurs en théorie de l’information : nous surestimons fortement notre anonymat numérique et sous-estimons notre unicité au sein d’une foule.

regard - projection N0

« Ils sont plus de deux mille et je ne vois qu’eux deux … » J. Brel

L’équipe du MIT a démontré qu’il suffit de quatre repères spatio-temporels de type métadonnées pour déterminer, dans 95% des cas, l’identité d’un individu utilisant un réseau de communication téléphonique. Les repères utilisés sont par exemple le lieu ou l’heure de l’appel téléphonique. L’identité de la cible est inconnue, seules ses traces de mobilité sont analysées.

Ce résultat spectaculaire prouve que le concept d’anonymat d’un individu utilisateur d’un réseau de téléphonie mobile est à la fois hautement abstrait, fragile, surestimé et que quatre traces informationnelles suffisent dans la majorité des cas à le faire voler en éclat.

L’étude a été menée à partir des données de mobilité d’un ensemble de 1,5 millions d’utilisateurs d’un réseau de téléphonie mobile. La collecte des données a eu lieu entre avril 2006 et juin 2007 dans un pays occidental. Lorsque l’utilisateur interagit avec le réseau de téléphonie par le lancement ou la réception d’un appel ou d’un SMS, l’emplacement de l’antenne de connexion relais est enregistré ainsi que l’heure de l’appel. La résolution spatiale de l’ensemble de données est égale à la moitié de la distance maximale séparant les antennes. La résolution temporelle de l’ensemble est exprimée en heures. Une mesure du caractère d’unicité des traces de mobilité E (ou unicité de mobilité humaine) est construite à partir des données collectées, et s’exprime selon la formule :

E = a – (v . h)B

h est la résolution temporelle, v la résolution spatiale liée au nombre d’antennes. B est un exposant linéairement lié aux nombres de traces de mobilité, par exemple B = – p / 100 avec p traces utilisées (en pratique p = 4 suffit à l’identification). La quantité « a » est une constante d’ajustement liée au système.

En moyenne, l’étude rapporte 114 interactions par utilisateur, par mois, sur un réseau de 6500 antennes référencées. Ces antennes sont distribuées sur le territoire en servant environ 2000 habitants par antenne et couvrant des zones géographiques de 0.15 km² en secteur urbain et 15 km² en zone rurale. Le nombre d’antennes est bien entendu corrélé à la densité de population. Les traces de mobilité n’ont pas toutes la même valeur informationnelle. Ainsi, une communication téléphonique passée à midi en plein centre de Paris est moins spécifique, moins parlante qu’un appel passé à quatre heures du matin depuis une clairière de la forêt de Fontainebleau. L’étude démontre que quatre traces ou points choisis au hasard sont suffisants pour caractériser de façon unique 95% des utilisateurs du réseau ; c’est-à-dire que E > 0.95.

De la même façon, deux points choisis au hasard caractérisent de façon unique plus de 50% des utilisateurs : E >0.5. Ces deux résultats prouvent que nos traces de mobilité sont globalement uniques et qu’il ne faut pas espérer passer inaperçu en tant qu’utilisateur d’un réseau de téléphonie.

Très peu d’information extérieure (de type métadonnée) est nécessaire pour identifier de façon presque certaine la trace d’un individu ciblé et l’effort de calcul que doit fournir un système de surveillance globalisé lors d’une identification et du suivi d’une cible s’avère extrêmement réduit (quatre traces suffisent)…

Unique sur internet par nos projections algorithmiques…

Le résultat précédent s’étend d’une certaine façon aux traces que nous produisons lors de nos interactions numériques. La notion de projection algorithmique [2] [3], inédite dans le formalisme qui la sous-tend, permet de décrire certaines interactions du cyberespace. Sa définition la rend compatible avec une collecte et une analyse automatisées. Même anonymé, un utilisateur régulier d’un réseau social ou d’un site de vente en ligne transfère vers le système, volontairement ou non, une quantité d’informations qui, croisées entre elles à la manière des quatre traces précédentes, finissent par abolir complètement l’anonymat initial. Cette perte d’anonymat résultant du croisement de données est souvent sous-estimée par un opérateur qui ne mesure pas toujours l’importance de l’information déduite. Il est possible de définir de façon formelle l’information résultant de chaque interaction en fixant le concept de projection algorithmique d’un individu H décidant l’exécution d’un algorithme A sur un système de calcul et de stockage noté S.

Nous appelons projection algorithmique de H sur S selon A, et notons PS(H/A) l’ensemble de mots binaires finis (des mots formés d’une suite finie de 0 et de 1) archivés sur S et résultant de l’exécution de A sur S décidée par H.

Cette projection est scindée en deux sous-ensembles disjoints :

On y retrouve d’une part la projection ouverte notée POS(H/A) qui contient l’information archivée sur S accessible à tout utilisateur ou tout système extérieur. Elle constitue la composante ouverte et publique de la projection. On la complète par la projection fermée notée PFS(H/A) réunissant les mots binaires archivés sur les unités de stockage de S, maintenus privés, et réservés au seul groupe supervisant le système S (ses administrateurs par exemple, dans le cas d’une supervision de nature humaine). La projection s’exprime donc comme une réunion disjointe :

PS(H/A) = POS(H/A) U PFS(H/A)

On considère ensuite la réunion des ensembles PS(H/A) prise sur tous les algorithmes exécutables sur S.

PS(H) = UA PS(H/A)

Cette projection informationnelle de l’opérateur H relativement au système S se scinde naturellement en deux sous-ensembles, l’un ouvert noté POS(H) et l’autre PFS(H) fermé et accessible aux seuls administrateurs-superviseurs du système de calcul S :

PS(H) = POS(H) U PFS(H)

On notera que le superviseur de S peut lui-même être un système de calcul œuvrant dans le cadre d’un système spécifiant un système.

Enfin, la projection globale notée P(H) est obtenue en considérant la réunion sur tous les systèmes S des ensembles PS(H) . Ainsi, P(H) = US PS(H) doit être vue comme notre reflet numérique global.

La projection PS(H) s’enrichit lors de chaque nouvelle interaction algorithmique décidée par l’opérateur humain H. L’apport peut être redondant ou complémentaire.

Globalement, l’information brute augmente au sein de cette projection et constitue une cible de choix pour tout programme de collecte d’information (data mining). Ces programmes ou agents logiciels agissent au bénéfice de bases de données (big data) à finalité de marketing, d’études de tendances, ou lors de collecte d’information ouverte. La pratique ROSO du renseignement obtenu à partir de sources ouvertes entre dans le cadre de ce formalisme. Il suffit de croiser les informations puisées dans les projections relatives à un algorithme A pour déduire, de façon automatique ou par calcul humain, un nouvel ensemble structuré et plus riche que l’ensemble des projections initiales.

L’analyste, qu’il soit de nature humaine ou de nature algorithmique, peut également provoquer l’apport de projections complémentaires et l’enrichissement de la projection globale en activant des boucles de rétroactions opérant entre l’opérateur humain ciblé et sa projection algorithmique.

On y trouve par exemple des boucles d’intérêt, des boucles narcissiques de valorisation, et des boucles addictives. Les notions d’identité numérique et de réputation numérique s’intègrent naturellement dans la définition plus large de projection algorithmique de l’opérateur H relativement au système S. L’intérêt d’un tel formalisme est de décomposer l’information selon le type d’algorithme envisagé et de créer des partitions sémantiquement exploitables par un système d’analyse automatisé. Un phénomène concret comme l’auto-radicalisation d’un individu fréquentant régulièrement un site militant extrémiste peut être décrit en associant le concept de concurrences algorithmiques à celui de projections. Dans tous les cas, une boucle de transfert d’information s’installe entre l’opérateur et le site concerné avec une « volonté algorithmique » de contrôler et de cadenasser la cible humaine. L’étude détaillée et exhaustive des boucles de rétroactions liant l’opérateur et sa projection algorithmique s’impose dès lors que l’on souhaite installer puis exploiter un système automatisé de collecte de données. La recherche de corrélations ou de similarités entre données passe par l’analyse de l’information issue des dynamiques propres à chaque boucle.

Les systèmes de surveillance automatisés et de détection de menaces, à l’image du programme européen INDECT (développé jusqu’en 2014) ou de son grand frère PRISM, exploitent actuellement les projections algorithmiques de façon très élémentaire (via des groupes de mots-clés ,des relations et des similarités). L’analyse du contenu informationnel des projections et de leurs relations va s’enrichir au niveau sémantique et permettre à terme une compréhension proche de ce qu’un cerveau humain peut déduire d’un ensemble réduit de données.

En attendant cette montée en puissance, soyons tous conscients que notre anonymat ne tient qu’à quatre traces !

Bibliographie

[1] Unique in the Crowd : The privacy bounds of human mobility – http://www.nature.com/srep/2013/130325/srep01376/full/srep01376.html [2] BERTHIER T. – « Projections algorithmiques et cyberespace » R2IE – revue internationale d’intelligence économique – Vol 5-2 2013 pp. 179-195. [3] BERTHIER T., Sur la valeur d’une donnée, Publications Chaire de cyberdéfense Saint- Cyr-Sogeti-Thales – mai 2014.]]>

By admin

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *