- L’anonymisation ne peut pas offrir une sécurité absolue contre la ré-identification ; l’objectif est de réduire les risques jusqu’à un niveau extrêmement faible.
- L’efficacité de l’anonymisation dépend des méthodes, des contrôles d’accès et des données supplémentaires disponibles ; c’est un défi, mais pas impossible.
L’autorité anglaise de contrôle de la protection des données (ICO) a émis un document de base complet sur le thème “Big data, artificial intelligence, machine learning and data protection” a été publié dans une nouvelle version. Le document ne se prononce pas de manière définitive sur l’une des questions principales dans ce contexte, à savoir l’anonymisation (et donc aussi sur la question de savoir quand il s’agit de données personnelles), mais de manière assez nuancée :
“Certains commentateurs ont souligné des exemples où il a apparemment été possible d’identifier des individus dans des ensembles de données anonymes, concluant ainsi que l’anonymisation devient de plus en plus inefficace dans le monde des grandes données. D’autre part, Cavoukian et Castro ont constaté des lacunes dans les principales études sur lesquelles se fonde ce point de vue. Une étude récente du MIT s’est penchée sur les enregistrements de trois mois de transactions par carte de crédit pour 1,1 million de personnes et a affirmé qu’en utilisant les dates et les lieux de quatre achats, il était possible d’identifier 90 % des personnes dans le jeu de données. Toutefois, Khalid El Emam a souligné que, bien que les chercheurs aient pu identifier des modèles uniques de dépenses, ils n’ont pas réellement identifié d’individus. Il a également suggéré que, dans la pratique, l’accès à un ensemble de données tel que celui-ci serait contrôlé et que les techniques d’anonymisation appliquées à l’ensemble de données n’étaient pas particulièrement sophistiquées et auraient pu être améliorées.
Il n’est peut-être pas possible d’établir avec une certitude absolue qu’un individu ne peut pas être identifié à partir d’un ensemble particulier de données, prises avec d’autres données qui peuvent exister ailleurs. La question n’est pas d’éliminer complètement le risque de ré-identification, mais de savoir s’il peut être atténué pour qu’il ne soit plus significatif.. Les organisations devraient se concentrer sur l’atténuation des risques jusqu’au point où les chances de ré-identification sont extrêmement éloignées. La gamme de jeux de données disponibles et la puissance de l’analyse des grandes données rendent cela plus difficile, et le risque ne doit pas être sous-estimé. Mais cela ne rend pas l’anonymisation impossible ou inefficace..“