Orisup, mégafichier sur l’ensemble des données personnelles relatives aux étudiants

Je suis un numéro

Le 28 décembre 2018 à 09h39

4 min

Droit

Ce matin, au Journal officiel, un arrêté a donné naissance à « Orisup ». Derrière l’acronyme, se cache un « système d'information sur l'orientation dans le supérieur ». En pratique, un traitement de données à caractère personnel qui retrace tout le parcours des étudiants, avec un luxe de détails, à des fins statistiques et de recherche.

Avec « Orisup », le gouvernement veut disposer d’une vue générale sur l'ensemble du dispositif national d'orientation dans l'enseignement supérieur. L’enjeu ? Jauger son efficacité selon les populations, les filières et les types d'établissements.

À ce titre, ses informations sont accessibles à l’ensemble des agents du service statistique ministériel (exception faite des données relatives aux nom, prénoms et lieu de naissance des étudiants).

Sur demande, d’autres pourront y avoir accès, selon les mêmes finalités, tel le comité éthique et scientifique, dont l’une des missions est de remettre chaque année un rapport au Parlement portant sur le déroulement de la procédure nationale de préinscription.

S’y ajoutent, mais uniquement dans le périmètre de leurs travaux, les chercheurs sous convention, cette fois « après application d'un traitement rendant impossible l'identification directe ou indirecte des personnes concernées ».

Mais que trouve-t-on dans Orisup ? Pour le savoir, il faut se plonger dans l’annexe, longue de 170 lignes, où on comprend concrètement qu’il s’agit d’un fichier de fichiers, rassemblant donc des données issues de nombreux traitements déjà en vigueur.

Orisup = APB + Parcoursup + SIECLE + SYSCA + SCOLEGE + OCEAN + AGLAE

Les données issues de Parcoursup seront par exemple avalées : état civil, coordonnées personnelles, informations relatives aux responsables (lien de parenté, catégorie socioprofessionnelle, adresse postale), informations issues du dossier de bourse, revenu brut global, nombre de frères et sœurs à charge.

De la même source, on trouve aussi des informations sur les activités sportives et artistiques pratiquées par l’étudiant en devenir (niveau de pratique, discipline, résultat, performance, prix obtenus), son CV, ses résultats pour chaque matière, les éléments d'appréciation des professeurs, les résultats obtenus, mention comprise, le niveau de langue française, et même les données de connexion avec dates et heures, les « traces des actions sur le dossier du candidat », le média de connexion utilisé ou la distance entre le domicile et l'établissement de formation demandé.

Des données à peu près identiques sont chalutées dans Admission Post-Bac, le prédécesseur de Parcoursup, avec des adjonctions comme l’éventuelle justification de l'abandon de la procédure par le candidat.

D’autres fichiers servent de vivier, comme le « Système d’information sur le suivi des étudiants » (nationalité de l'étudiant, profession et catégorie socioprofessionnelle de ses parents, commune, département et pays de résidence de l'étudiant, etc.), les traitements SIECLE, SYSCA, SCOLEGE, outre SIFA (pour les apprentis) et OCEAN.

Ce dernier est relatif à la gestion des examens et concours scolaires. Il intègre les avis portés au titre de la scolarité antérieure (livret scolaire, diplôme antérieur, demande de validation des acquis, série du baccalauréat obtenus). Enfin, AGLAE (pour « automatisation de la gestion du logement et de l’aide à l’étudiant ») délivrera l’ensemble des informations issues du CROUS avec une typologie détaillée des aides financières (décision et montant attribué).

Des données conservées durant 15 ans

Les données sont conservées en principe durant 15 ans, sauf les nom et prénoms qui resteront stockés deux ans, avant archivage. Juridiquement, le traitement s’appuie non sur le consentement des personnes concernées, mais sur les nécessités liées à l'exécution d'une mission d'intérêt public (article 6 1 e) du RGPD).

Il n’est évidemment guère exceptionnel pour une administration en quête de modernité de disposer d’outils statistiques. L’intérêt de cet arrêté est surtout de révéler en une seule base la masse d’informations prélevées tout au long du parcours des étudiants.

Commentaires (31)

Rogan

Le 29/12/2018 à 11h29

Merci pour ce commentaire constructif et intéressant. Ça change des commentaires limite complotiste qu’on trouve malheureusment trop souvent ici-même…

yacx21

Le 29/12/2018 à 16h17

Tu prend un cas spécifique pour faire des conclusions générales, j’ai connu mieux comme démarche scientifique.

Je ne sais pas ce qui se fait dans toutes les disciplines alors je ne me prononcerais pas dessus, mais pour évaluer la formation il me semble qu’il s’agit plus du travail des économistes. L’aspect spatial de l’analyse empirique en économie est quelque chose que je fais beaucoup, c’est pourquoi je me suis prononcé sur le sujet.

 

Quand on s’intéresse au cas de l’adresse il y a deux manières de voir les choses : est-ce utile pour l’analyse et est-ce-que cette précision nuit d’avantage qu’une information à la commune par exemple.

Pour l’utilité de cette information dans l’analyse économique, le cadre d’analyse est celui de l’économie urbaine.  On s’intéresse ici à l’accessibilité des étudiants à l’université et potentiellement à leurs résultats. Le temps de trajet pour se rendre à l’université aura donc un intérêt notable dans l’analyse. Une mesure d’accessibilité aura pour objectif d’être la plus précise possible (temps de trajets ou distance à un point d’intérêt).

Bien sur il y a des cas où l’adresse n’a que peu d’intérêt, lorsqu’on cherche à étudier ce qu’on appelle les économies d’agglomération alors la zone d’emploi est l’échelle la plus pertinente.

Mais le choix de l’échelle géographique va dépendre de chaque étude, et pour le cas de l’accès à l’université et des résultats, l’adresse apporte un réel plus dans la précision de l’analyse. 

Pour ce qui est du “risque” d’avoir l’adresse au lieu de la commune, il faut savoir que dans les deux cas les données seront considérées comme identifiables, donc protégées de la même manière. Une information sur la commune avec les autres informations sur un individus permettront souvent de retrouver l’identité d’un individu (d’où le fait que les données dites identifiables soient sous secret statistique). La plupart du temps en France on considère une donnée non identifiable lorsque l’échelle géographique n’est pas plus précise que la région.

tmtisfree

Le 29/12/2018 à 17h37

L’exemple était une simple illustration que la précision n’est pas nécessairement un gage de qualité, rien de plus. Je conçois et conviens qu’elle puisse avoir son utilité si tant est que le problème ait un intérêt, soit correctement posé et bénéficie d’une méthodologie adéquate.

Ici, on a plus affaire à du travail de sociologie mineur et anecdotique que d’économie (mais les économistes ont tendance à s’infiltrer partout où on ne les attend pas, et pour ma part vu l’état de la sociologie, c’est pour le meilleur) : les « résultats » étant majoritairement du ressort des compétences individuelles, pourquoi étudier l’accessibilité relativement à ce critère a un quelconque intérêt qui requiert une telle précision m’échappe. Mais je ne suis pas économiste ;)

fred42 Abonné

Le 29/12/2018 à 17h48

yacx21 a écrit :

Tu prend un cas spécifique pour faire des conclusions générales, j’ai connu mieux comme démarche scientifique.

C’est sa méthode de prédilection pour faire de la propagande. Je lui réponds assez rarement, dans ces cas là, ici, c”était tellement hors du contexte de la discussion que ça n’en valait pas la peine.

Anonyme_f7d8f7f164fgnbw67p

Le 29/12/2018 à 22h17

tmtisfree a écrit :

Mais je ne suis pas économiste ;)

Non ?

Vu comme t’arrêtes pas de déballer des théories économiques fumeuses ici, en citant tous les économistes du monde dans toutes les langues, moi je pensais que t’étais docteur en économie, au moins. Si pas beaucoup mieux

Tristesse, tristesse…

tmtisfree

Le 30/12/2018 à 08h45

Le savoir, la compétence, la qualité de la recherche ou des idées etc. ne se mesurent pas qu’à l’aune des diplômes, fort heureusement.

Sinon, pourquoi qualifier de « fumeuses » des théories alors que tu n’es pas toi-même économiste (et donc, selon ta position, incompétent pour les juger) ?

Il est vrai que la cohérence et l’honnêteté intellectuelles ne sont que peu de choses quand on peut sans effort succomber à ses biais (ou aux sophismes comme le n° 42) …

ProFesseur Onizuka

Le 31/12/2018 à 17h26

" />

Patch Abonné

Le 02/01/2019 à 08h35

Drepanocytose a écrit :

Non ?

Vu comme t’arrêtes pas de déballer des théories économiques fumeuses ici, en citant tous les économistes du monde dans toutes les langues, moi je pensais que t’étais docteur en économie, au moins. Si pas beaucoup mieux

Tristesse, tristesse…

Ou quand Ca dit enfin que c’est un énorme incompétent (en 1 mot comme en 3)… Mais ne le reconnaîtra ensuite jamais, étant donné que c’est un paradoxe permanent, toujours prêt à dire tout et son contraire pour être le seul et unique à avoir raison même si tu avais eu le malheur d’être d’accord avec lui.

fred42 Abonné

Le 28/12/2018 à 10h10

Si le but du fichier est uniquement de faire des statistiques, tout doit être anonymisé, sinon ça devient horiblesup !

ragoutoutou Abonné

Le 28/12/2018 à 10h26

Attention, ces données seront mises en Open Bar pour la police, le renseignement et tout le reste de l’exécutif dans 3… 2… 1…

Trit’ Abonné

Le 28/12/2018 à 10h32

Tu oublies les GAFAM,les démarcheurs téléphoniques et les réseaux de spambots.

crocodudule

Le 28/12/2018 à 10h41

fred42 a écrit :

Si le but du fichier est uniquement de faire des statistiques, tout doit être anonymisé, sinon ça devient horiblesup !

On est d’accord ou au moins pseudonymisé, par exemple conserver l’adresse exacte est une donnée qui permettra bien trop facilement de retrouver l’identité.

L’Etat a généralisé le croisement des informations et maintenant passe la vitesse supérieure en créant des fichiers de fichiers.

Lorsqu’on voit comment dans les administrations (et notamment les fac où j’ai travaillé longtemps comme contractuel pour croquer) les accès logiciels et même comment sont saisies les données on peut sincèrement s’inquiéter du jour, de moins en moins improbable, ou les extrémistes de tous les bords seront au pouvoir.

Désolé pour le point godwin mais s’agissant de registres/fichiers administratifs il est totalement justifié, on ne peut pas perpétuellement jouer les cassandres en relevant que les mêmes processus que dans les années 30 sont à l’oeuvre aujourd’hui, et dans le même temps bâtir les outils qui ont a largement facilité les purges et rafles en 40 !

Au début, ces fichiers de fichiers étaient destinées à des finalités précises, lutte contre le blanchiment, contre la fraude fiscale etc… Maintenant on l’annonce à des fins statistiques pour pondre des rapports sur l’efficacité des systèmes d’orientation.

Est-ce qu’on a vraiment besoin de 15 ans de conservation de ces données non correctement pseudonymisées à l’échelle nationale pour déterminer si un service d’orientation dans une fac est performant ?  

Jarodd Abonné

Le 28/12/2018 à 10h46

Si c’est à but statistique, en quoi le nom ou l’adresse postale sont des données pertinentes ?

crocodudule a écrit :

Désolé pour le point godwin

Ca n’en est pas un.

crocodudule

Le 28/12/2018 à 10h46

ragoutoutou a écrit :

Attention, ces données seront mises en Open Bar pour la police, le renseignement et tout le reste de l’exécutif dans 3… 2… 1…

Ou revendues à des boites privées comme pour le fichier des immatriculations.

tmtisfree

Le 28/12/2018 à 10h47

Depuis quand le gouvernement français a-t-il besoin de s’occuper de son efficacité ? " />

Au pays des licornes tricolores et des Cerfas en quadruple exemplaires la perfection de l’action publique politicotechnicoadministrative est légendaire. La preuve ? La dette, le chômage et tous ces maux qui frappent les tribus libres au alentours sont sous contrôle chez nous, et le bon peuple satisfait procède gaiement à la réélection de leaders étatistes énarchiques avec une récurrence qui frise l’insouciance et l’indolence du drogué commodément assisté.

Romain_Ph

Le 28/12/2018 à 11h28

Toi tu as encore trop forcé sur le bourbon et tes bouquins de Adam Smith à Noel. On dirait le tonton bourré à noel qui crache ses poncifs

ProFesseur Onizuka

Le 28/12/2018 à 12h14

ragoutoutou a écrit :

Attention, ces données se retrouveront mises en Open Bar sur Internet dans 3… 2… 1…

Fixed " />

(ce n’est qu’une question de temps) " />

yacx21

Le 28/12/2018 à 12h42

crocodudule a écrit :

Est-ce qu’on a vraiment besoin de 15 ans de conservation de ces données non correctement pseudonymisées à l’échelle nationale pour déterminer si un service d’orientation dans une fac est performant ?  

Pour évaluer correctement le système a posteriori avoir une le plus de profondeur possible dans le temps est très important, toutefois les noms et prénoms sont parfaitement inutiles pour cela.

 

Jarodd a écrit :

Si c’est à but statistique, en quoi le nom ou l’adresse postale sont des données pertinentes ? 

L’adresse peut être très utile pour étudier les questions d’inégalités géographiques dans l’accès aux études supérieures.

De manière plus générale, la constitution d’une telle base de données accessible aux chercheurs est plutôt une bonne nouvelle puisque cela permet une évaluation des dispositifs mis en place sans le contrôle des politiques sur les résultats des études.

Je ne me fais pas particulièrement de soucis sur le fait que cette base soit correctement anonymisée, les services producteurs de données en France sont habitués à traiter ce genre d’information (que ce soit l’INSEE, la DARES, la DGFIP etc…).

La France est loin d’être en retard quand il s’agit de mettre à disposition des chercheurs des données à des fins de recherche, et ces donnés sont souvent d’excellente qualité.

Quand à ce que la base se retrouve leak sur internet, il ne me semble pas que ce soit arrivée sur les autres bases de données individuelles alors pourquoi avec celle là? 

Pour information accéder à ce genre des données ne consiste pas à se voir confier la base de données sur une clef USB, pour la plupart des chercheurs cela passe par une demande auprès du comité du secret statistique, puis une déclaration à la CNIL et enfin on a accès aux données via la CASD (qui donne un accès aux données sur serveur distant où ils contrôlent ce qu’on peut sortir comme information afin que le secret statistique soit maintenu).

NB : bien entendu je ne suis pas à 100% objectif, je suis chercheur en économie et la création de cette base me laisse entrevoir des études très intéressantes qui pourraient devenir possibles quand elle sera disponible. 

 

Soriatane Abonné

Le 28/12/2018 à 13h08

Merci d’avoir signalé ton conflit d’intérêt.

Tous le monde est lon d’avoir cet honnêteté.

crocodudule

Le 28/12/2018 à 14h15

yacx21 a écrit :

Pour évaluer correctement le système a posteriori avoir une le plus de profondeur possible dans le temps est très important, toutefois les noms et prénoms sont parfaitement inutiles pour cela.

 

Tout comme l’adresse exacte là où le code postal est suffisant et des brouettes d’informations qui peuvent être ramenées à une autre échelle pour éviter des identifications a posteriori.

blob741

Le 28/12/2018 à 14h44

Le code postal c’est quand même pas très précis.

Si tu prends rien qu’une ville pas immense comme Evreux, deux exemples, c’est un peu 2 salles, 2 ambiances et des réalités statistiques qui doivent varier d’un lieu à l’autre :

Google@49.0087705,1.1628689,3a,60y,103.08h,91.21t/data=!3m6!1e1!3m4!1sjnfaAyPdq9Zufjm5cOStZA!2e0!7i16384!8i8192?hl=fr

Google@49.0221806,1.1458724,3a,75y,178.05h,92.37t/data=!3m6!1e1!3m4!1sFvKzTpSVczYSgM_C8euDAg!2e0!7i16384!8i8192?hl=fr

Patch Abonné

Le 28/12/2018 à 15h04

yacx21 a écrit :

L’adresse peut être très utile pour étudier les questions d’inégalités géographiques dans l’accès aux études supérieures.

le seul code postal suffit largement pour ce cas.

Vachalay

Le 28/12/2018 à 17h17

Patch a écrit :

le seul code postal suffit largement pour ce cas.

Malheureusement non. Dans une même commune il y a souvent de disparités. Je suis d’accord avec toi que l’adresse est trop précise. Coupons la poire en deux et indiquons plutôt le secteur.

Jarodd Abonné

Le 28/12/2018 à 17h37

yacx21 a écrit :

 
 L'adresse peut être très utile pour étudier les questions d’inégalités géographiques dans l’accès aux études supérieures.
 

On n’a pas besoin de l’adresse pour faire ce genre de statistique. La ville ou la “zone de vie” (agglo), ça suffit.

fred42 Abonné

Le 28/12/2018 à 18h05

Quelles qualifications te permettent d’infirmer ce que te dit quelqu’un qui est du métier ?

yacx21

Le 28/12/2018 à 18h42

Jarodd a écrit :

 

On n’a pas besoin de l’adresse pour faire ce genre de statistique. La ville ou la “zone de vie” (agglo), ça suffit.

Ca dépend de ce à quoi on s’intéresse. SI ce sont les égalités inter-urbaines alors en effet la commune voir la zone d’emploi suffisent, mais si on s’intéresse aux inégalités intra-urbaine alors l’adresse devient pertinente.

Même dans le cas des égalités inter-urbaines on peut parfois calculer des mesures d’accessibilité basées sur la distance à des points d’intérêt (l’université, le centre ville etc…) et sans l’adresse impossible de construire de telles mesures.

Ce que je comprend pas c’est le problème avec ce genre d’informations : elles ne seront jamais accessibles publiquement. Du point de vue de l’autorité public l’adresse n’est pas une réelle plus-value puisqu’elle peut retrouver l’adresse par d’autres moyens (recensement, impôts etc…). Du point de vue de la recherche les informations sont suffisamment protégées pour qu’un chercheur ne puisse pas diffuser des informations. 

Bien entendu sur le papier il pourrait les recopier à la main en les lisant sur le serveur distant pour s’en servir mais les poursuites pénales sont assez dissuasives (je n’ai pas le détail sous la mais c’est au bureau et je suis en vacances) , sans compter le fait qu’il serait par la suite pour lui impossible d’accéder de nouveau à de telles données (ce qui poserait un gros problème pour travailler). Et autre point, ça coûte assez chère d’accéder à de telles données (1500€ l’année par projet), encore une raison de moins de risquer de s’en voir fermer l’accès au cours d’un projet pour lequel on a déjà payé. 

yacx21

Le 28/12/2018 à 19h05

Si certains sont curieux de voir les procédures pour accéder à des données similaires, voici le site qui détail la procédure : 

https://www.comite-du-secret.fr/

Puis ensuite le site du fournisseur d’accès aux données :&nbsphttps://www.casd.eu/

La procédure générale consiste à : 

Déposer un dossier auprès du comité du secret statistique exposant son projet de recherche et pour l’accès à des données sous secret statistique est nécessaire pour le mener à bien.

On présente son projet en réunion devant le comité du secret statistique et on se voit ou non autoriser à accéder aux données demandées. SI l’accès est autoriser on passe à la suite sinon on recommence au début.

On fait une déclaration CNIL spécifique à l’accès à ce type de données.

On contact le CASD concernant le projet (mise à disposition des données, facturation).

On suit une formation d’une demi-journée dans les locaux du CASD pour nous expliquer comment l’accès aux données sur le serveur distant fonctionne et nous remettre une carte d’accès personnelle (qui fonctionne uniquement avec les boîtiers spécifiques également fournis par le CASD).

Bref, de la paperasse, beaucoup, mais des données de très bonne qualité qui permettent de faire avancer la recherche plutôt qu’elles soient uniquement disponibles dans les services qui les produisent.

jackjack2

Le 28/12/2018 à 20h32

yacx21 a écrit :

Quand à ce que la base se retrouve leak sur internet, il ne me semble pas que ce soit arrivée sur les autres bases de données individuelles alors pourquoi avec celle là?

Avant le premier leak il n’y en avait pas eu

Avant le leak de Yahoo il n’y avait jamais eu de leak de plus d’un milliard de comptes

Il y a 10 ans il n’y avait jamais eu de leak de données biométriques

Et là il s’agit d’une base qui en recoupe 7

yacx21 a écrit :

Ca dépend de ce à quoi on s’intéresse. SI ce sont les égalités inter-urbaines alors en effet la commune voir la zone d’emploi suffisent, mais si on s’intéresse aux inégalités intra-urbaine alors l’adresse devient pertinente.

Même dans le cas des égalités inter-urbaines on peut parfois calculer des mesures d’accessibilité basées sur la distance à des points d’intérêt (l’université, le centre ville etc…) et sans l’adresse impossible de construire de telles mesures.

Perso ça me dérange surtout concernant des mineurs.

Le code postal est effectivement trop large, le code IRIS me dérangerait bien moins.

Westvleteren Abonné

Le 28/12/2018 à 22h29

Merci pour ces explications sur l’accès nominal à ces données.

Cette présentation me semble très progressiste et pourrait occulter les risques de dérives d’une telle accumulation de données, mais il me paraît normal qu’un chercheur ait une vision progressiste.

tmtisfree

Le 29/12/2018 à 08h22

Ah, ça sent le vécu !

tmtisfree

Le 29/12/2018 à 09h13

Argument d’autorité (= nul).

Sa réponse est convenable parce que le commentaire auquel il répond indique une échelle « géographique », ce qui est assez vague éviter tout reproche : comme il est difficile de faire plus précis qu’une adresse, et à moins de vouloir étudier des inégalités maison par maison ou individu par individu, ce dont tout le monde se fiche puisque qu’elles sont fort heureusement là pour rester, cette précision « géographique » est largement superflue. Au mieux, la demande d’une telle précision indique que la question est mal posée.

Voire même contre-productive : par ex. le cas d’une étude où ce degré de précision a été utilisé pour raffiner artificiellement un modèle de corrélations et donc augmenter son impact potentiel, alors même que les données sous-jacentes étaient inadaptées (ce qui était reconnu par les auteurs dans un autre de leur papier !), pour évaluer un supposé « problème sanitaire » de pollution. Résultat : des conclusions injustifiables (= erronées) mais largement utilisées politiquement parce qu’allant dans le « bon sens ».