Ven­te à emporter (AI)
  • L’an­ony­mi­sa­ti­on ne peut pas offrir une sécu­ri­té abso­lue cont­re la ré-iden­ti­fi­ca­ti­on ; l’ob­jec­tif est de rédui­re les ris­ques jus­qu’à un niveau extrê­me­ment faible.
  • L’ef­fi­ca­ci­té de l’an­ony­mi­sa­ti­on dépend des métho­des, des con­trô­les d’ac­cès et des don­nées sup­p­lé­men­tai­res dis­po­ni­bles ; c’est un défi, mais pas impossible.

L’au­to­ri­té anglai­se de con­trô­le de la pro­tec­tion des don­nées (ICO) a émis un docu­ment de base com­plet sur le thè­me “Big data, arti­fi­ci­al intel­li­gence, machi­ne lear­ning and data pro­tec­tion” a été publié dans une nou­vel­le ver­si­on. Le docu­ment ne se pro­non­ce pas de maniè­re défi­ni­ti­ve sur l’u­ne des que­sti­ons prin­ci­pa­les dans ce con­tex­te, à savoir l’an­ony­mi­sa­ti­on (et donc aus­si sur la que­sti­on de savoir quand il s’a­git de don­nées per­son­nel­les), mais de maniè­re assez nuancée :

Cer­ta­ins com­men­ta­teurs ont souli­g­né des exemp­les où il a appa­rem­ment été pos­si­ble d’i­den­ti­fier des indi­vi­dus dans des ensem­bles de don­nées anony­mes, con­clu­ant ain­si que l’an­ony­mi­sa­ti­on devi­ent de plus en plus inef­fi­cace dans le mon­de des gran­des don­nées. D’aut­re part, Cavou­ki­an et Castro ont con­sta­té des lacu­nes dans les prin­ci­pa­les étu­des sur les­quel­les se fon­de ce point de vue. Une étu­de récen­te du MIT s’est pen­chée sur les enre­gi­stre­ments de trois mois de tran­sac­tions par car­te de cré­dit pour 1,1 mil­li­on de per­son­nes et a affir­mé qu’en uti­li­sant les dates et les lieux de quat­re achats, il était pos­si­ble d’i­den­ti­fier 90 % des per­son­nes dans le jeu de don­nées. Tou­te­fois, Kha­lid El Emam a souli­g­né que, bien que les cher­cheurs aient pu iden­ti­fier des modè­les uni­ques de dépen­ses, ils n’ont pas réel­le­ment iden­ti­fié d’in­di­vi­dus. Il a éga­le­ment sug­gé­ré que, dans la pra­tique, l’ac­cès à un ensem­ble de don­nées tel que celui-ci serait con­trôlé et que les tech­ni­ques d’an­ony­mi­sa­ti­on appli­quées à l’en­sem­ble de don­nées n’é­tai­ent pas par­ti­cu­liè­re­ment sophi­sti­quées et aurai­ent pu être améliorées.

Il n’est peut-être pas pos­si­ble d’é­ta­b­lir avec une cer­ti­tu­de abso­lue qu’un indi­vi­du ne peut pas être iden­ti­fié à par­tir d’un ensem­ble par­ti­cu­lier de don­nées, pri­ses avec d’aut­res don­nées qui peu­vent exi­ster ail­leurs. La que­sti­on n’est pas d’é­li­mi­ner com­plè­te­ment le ris­que de ré-iden­ti­fi­ca­ti­on, mais de savoir s’il peut être atté­nué pour qu’il ne soit plus signi­fi­ca­tif.. Les orga­ni­sa­ti­ons dev­rai­ent se con­cen­trer sur l’at­té­nua­ti­on des ris­ques jus­qu’au point où les chan­ces de ré-iden­ti­fi­ca­ti­on sont extrê­me­ment éloi­g­nées. La gam­me de jeux de don­nées dis­po­ni­bles et la puis­sance de l’ana­ly­se des gran­des don­nées ren­dent cela plus dif­fi­ci­le, et le ris­que ne doit pas être sous-esti­mé. Mais cela ne rend pas l’an­ony­mi­sa­ti­on impos­si­ble ou inef­fi­cace..“