Au début de l’été, on s’était dit que c’était une bonne idée de vous donner un maximum de clés pour bien comprendre l’intelligence artificielle. Elle a fait un bond avec les IA génératives, on en parle souvent, mais on ne cerne pas toujours son fonctionnement.
Pour cela, rien de mieux que mettre les mains dans le cambouis. Cela tombe bien, développer et entrainer une IA ne demande pas plus de 10 lignes de codes. On a ensuite regardé l’influence de la quantité de données et des couches de neurones sur les performances de notre IA. Penchons-nous aujourd’hui sur un phénomène bien connu : le surentrainement ou surapprentissage.
- [Tuto] Intelligence artificielle : l’importance des données d’entrainement
- [Tuto] L’influence des couches de neurones sur l’intelligence artificielle
Petit rappel pour les retardataires. Nous utilisons le jeu de données du MNIST qui contient 60 000 images de 28 x 28 pixels représentant un chiffre. Chaque image est étiquetée : on sait à quel chiffre elle correspond. 10 000 images, également étiquetées, permettent ensuite de tester le modèle.
Comme nous l’avons déjà expliqué, lors de la phase d’entrainement nous faisons tourner notre algorithme plusieurs fois sur le même jeu de données – on parle d’epoch ou époques – pour améliorer ses performances. En l’occurrence, pour ajuster au mieux les (dizaines/centaines) milliers de paramètres – poids et biais – de chaque neurone.
Surentrainement, surapprentissage, surajustements… Késako ?
On pourrait être tenté de multiplier les époques pour affiner correctement le modèle, mais ce n’est pas un pari toujours gagnant. On arrive même parfois au résultat inverse avec un modèle qui devient « trop bon » sur les données d’entrainement, sans être capable de généraliser son résultat lorsqu’il est confronté à de nouvelles données.
Il reste 80% de l'article à découvrir. Abonnez-vous pour ne rien manquer.
Déjà abonné ? Se connecter
Commentaires (6)
#1
"Je vous donne un exemple : Je vous dis Laurel vous me répondez Hardy
- Hardy ?
- Roméo et ..?
- Hardy
- Pourquoi vous avez dit Hardy ?
- Vous m'avez dit de dire Hardy.
...
- Mais non c'était un exemple. Là c'était Roméo et Juliette
- Juliette ?
- Allez Jacques Dutronc et Françoise ?
- Juliette
- Mais non Hardy
- Vous m'avez dit de ne pas dire Hardy.
- ..."
#1.1
#2
J'avais lu "Quand la machine apprend" de Yann Le Cun (très intéressant aussi d'ailleurs) mais là on rentre dans des finesses de l'apprentissage qu'il n'y aborde pas. (peut-être d'ailleurs parceque non pertinente à l'époque du livre?)
#2.1
J’ai jamais lu ce livre, je vais mettre sur ma todo si c’est intéressant :)
#2.2
Il n'y a aucun doute que Yann LeCun connaisse le surapprentissage. Il faut voir si c'était pertinent dans le contexte du livre. Je n'ai pas lu le bouquin, je ne sais pas ce qu'il y a dedans. Mais s'il aborde les réguarisasion L1 (lasso), L2 (ridge), dropout et early stopping par exemple, implicitement, il considère le surapprentissage.
#3