Et si le big data était aussi dangereux que le nucléaire ? Faut-il imaginer une demi-vie pour les données ?

C’est la question iconoclaste que pose Maciej Ceglowski, le fondateur de Pinboard.

Les parallèles sont simples.Les traces que les utilisateurs laissent derrière eux sont radioactives, elles continuent à pouvoir avoir un effet négatif jusque des années plus tard. Ils soulèvent l’idée que de nombreuses données produites échappent à toute forme de contrôle sérieux. Elles sont échangées, modifiées, revendues. Mais surtout, comme les déchets nucléaires, elles restent.

Les opinions ou les traces que les gens laissent aujourd’hui sont peut-être légitimes, mais que se passerait-il si elles devenaient punissables dans 10 ou 20 ans. C’est ce qu’on découvert les artistes hollywoodiens progressistes lors de l’émergence du maccarthysme. Ce sont leurs comportements passés qui ont été jugés et examinés. Que ce serait-il passé si on avait eu accès au détail des correspondances de Charlie Chaplin sur gmail, ou de ses DM sur twitter ? De la même façon, imaginons un russe gay qui ouvre un journal anonyme sur livejournal en 2017, mais qui voit cette société se faire racheter dix ans plus tard par une société russe alors que l’homosexualité est plus durement réprimée dans son pays ?

Science-Fiction ? Comme l’a repéré Antonio CasiliLa police américaine commence justement à demander à disposer des données génétiques de certains clients de Ancestry.com et 23andMe afin de savoir s’ils auraient des correspondances avec des traces retrouvées sur des scènes de crime. Quelle bonne surprise pour tous ceux qui leur avaient envoyé un échantillon de salive pour savoir à quelles maladies génétiques ils devaient se préparer avec leur famille.

L’industrie des données et du Big Data est peut-être utile, mais de nombreux usages . Elle est dangereuse, et l’incapacité de ses acteurs à faire la différence entre ce qui bien, ce qui est mal, et ce qui est futile ne rend pas forcément optimiste.

L’analyse de Maciej Ceglowski est radicale. Ses conseils sont les suivants :

  • ne pas collecter les données, dans de nombreuses situations elles ne servent à rien
  • si on doit absolument les collecter, ne pas les stocker et privilégier un traitement en temps réel
  • si on doit absolument les stocker, ne pas le faire n’importe où et ne pas les laisser traîner sur des serveurs de tiers comme Amazon S3

De toute façon, le modèle actuel dans lequel on essaie de conserver le maximum de données pendant le maximum de temps n’est pas tenable. Comme pour les accidents nucléaires, la question n’est pas de savoir si des accidents vont se produire, mais de savoir quand.

Lors des travaux du Conseil National du Numérique, j’avais eu l’occasion de proposer une durée de péremption pour les données, c’est-à-dire une date à partir de laquelle il est nécessaire de redemander l’autorisation de l’utilisateur pour continuer à les utiliser. Sans cette autorisation supplémentaire, les données devraient être effacées. Visiblement, je ne suis pas le seul à y penser.

Si on reprend l’analogie avec le nucléaire, il est urgent de réfléchir à créer une sorte de demi-vie pour les données afin de leur permettre de se dégrader et de disparaître au fil du temps.

Update : excellent article de Boing Boing sur la façon dont les sites qui agrègent des  données finissent toujours par les diffuser que ce soit aux forces de l’ordre, au cours de procès entres individus (Facebook est de plus en plus exploité dans les divorces), à des criminels.

9 pensées sur “Et si le big data était aussi dangereux que le nucléaire ? Faut-il imaginer une demi-vie pour les données ?”

  1. Personnellement, je combinerais cela avec une modernisation des données d’archive et de leurs accès : le délai de communicabilité. On ne pourrait plus accéder à des données anciennes avant un certain délai (50 ans voire plus en raison de l’allongement de la durée de vie).

    1. Le nucléaire est-il une bonne métaphore pour la matière numérique?

      On obscurcit le débat à tout appeler « données » alors qu’en réalité on parle d’une matière numérique ayant des propriétés variées ( voir le livre de Stéphane Vial) Dans la loi du numérique, l’article 8 aborde ce problème en définissant le domaine commun informationnel essentiellement pour les informations passées, sans tenir compte de la dynamique de la communication.

  2. Cette demi-vie obligatoire est a priori une bonne idée, mais davantage pour une raison écologique (on libère de l’espace disque) que pour les raisons de vie privée invoquées : il y aura toujours certains tiers, implantés là où une telle loi ne serait pas en vigueur, pour conserver (publiées) les données soi-disant sujettes à la demi-vie.

  3. L’idée est intéressante, mais risque de se heurter à des contraintes stupides techniques…

    J’imagine bien que toutes ces sociétés ont des sauvegardes de leurs données, bien en sécurité (en cas de crash ou autre panne informatique).

    Donc imaginons qu’elles effacent des données à cause de leur péremption.

    Imagine-t-on un instant qu’elles vont aller effacer jusque dans les sauvegardes ? Et potentiellement compromettre ou corrompre (informatiquement) celles-ci ?

    Je n’y crois pas un instant.

    Donc les données seront toujours quelque part, et les forces de l’ordre pourront toujours sortir un mandat pour les avoir. Ou elles pourront se faire voler.

    Bien sûr les sociétés ne pourront pas légalement les effacer, mais il n’est pas dit que toutes soient suffisamment respectueuses des lois pour ne pas s’en affranchir.

    Ou alors, solution science-fiction, les données sont intelligentes et refusent de se copier ou de s’afficher toutes seules une fois leur date de péremption dépassée, cette intelligence se transmet à la copie, avec une horloge garantie inviolable.

    Bien sûr il resterait toujours la solution de prendre un papier et crayon et de recopier l’information, hein…

    1. Il suffit d’interdire aux sociétés d’utiliser des données sans date, ou dont la date est dépassée. Si elles le font quand même, elles peuvent être punies. Ce n’est pas très difficile à vérifier. Et si la date est fixée suffisamment loin – en leur demandant leur avis, elles n’ont même pas intérêt à tricher.

  4. Intéressant article ! Bravo.

    Mais il me semble qu’il manque quelques mots dans cette phrase:
    «L’industrie des données et du Big Data est peut-être utile, mais de nombreux usages .»

Laisser un commentaire