Quelle est la véritable photo de notre Global Analytics and Cognitive Leader et quelle est la sortie d’un modèle d’IA appelé GAN ?
Publié le 18 février 2021
L’une des photos ci-dessus de notre Global Analytics and Cognitive Lead, Costi Perricos, n’est pas réelle et est le résultat d’un modèle d’IA appelé GAN. Pendant que vous vous demandez laquelle des photos est fausse, lisez ce qui suit pour comprendre comment cette photo a été créée.
En quoi les GAN sont-ils différents ?
Les modèles d’apprentissage automatique sont généralement créés pour faire une prédiction, comme le moment où une pièce de voiture risque de se casser ou le meilleur endroit pour ouvrir un nouveau restaurant. Bien que ces deux prédictions n’aient rien en commun (à moins que les voitures tombent souvent en panne dans un drive-in !), les principes sous-jacents de ces modèles sont similaires : avec suffisamment de données historiques, des prédictions informatives peuvent (généralement) être faites.
Par exemple, si je voulais entraîner un modèle permettant de déterminer si une photo représente un chat ou un chien, il me faudrait réunir un grand jeu de données d’entraînement étiquetées de photos de chats et de chiens. Ce modèle discriminant peut être formé à l’aide d’un réseau neuronal à convolution, qui est à la base un type d’IA qui excelle dans la détection de modèles visuels. Une fois le modèle entraîné, on peut lui montrer une photo de chat ou de chien qu’il n’a jamais vue et faire une prédiction.
Mais que se passe-t-il si le résultat souhaité n’est pas un modèle prédictif, mais la création de nouvelles données qui ressemblent aux données d’entraînement. C’est le domaine des réseaux adverses génératifs.
Les réseaux adverses génératifs (GAN) nécessitent également des données d’apprentissage, mais uniquement des exemples de la catégorie souhaitée (dans notre exemple, les chats). Le modèle est créé pour accepter une série de chiffres en entrée et, une fois ces chiffres fournis, le modèle produira une nouvelle image de chat, qui n’existe pas dans le monde réel.
Ce modèle exact existe déjà, et les résultats sont étonnamment bons (thiscatdoesnotexist.com). Vous ne l’avez peut-être pas réalisé, mais toutes les images de chat de cet article proviennent de ce modèle et n’existent pas réellement !
Comment les GAN sont-ils entraînés ?
Pour entraîner un GAN, on n’entraîne pas un seul modèle mais deux. Le premier modèle est un générateur (le G de GAN). À partir d’un ensemble d’entrées numériques, le générateur crée une nouvelle image, une image qui n’a jamais existé auparavant. Cela peut être comparé à un faussaire, qui tente de fabriquer de la fausse monnaie qui ressemble à de la vraie.
Le deuxième modèle est le discriminateur, dont le rôle est de faire la différence entre les images d’entraînement (réelles) et les images créées par le générateur. Il peut être comparé à un détective, qui tente de faire la différence entre ce qui est vrai et ce qui est faux.
Si ces deux modèles sont entraînés simultanément l’un contre l’autre, il en résulte une course aux armements, où le générateur crée des images de plus en plus réalistes et le discriminateur devient meilleur pour repérer les fausses. Cette relation contradictoire est le A dans GAN, et permet la production de résultats incroyablement réalistes.
Non seulement les résultats du GAN sont visuellement réalistes, mais comme le générateur produit une image à partir d’une série de chiffres, la génération des images est quelque peu contrôlable. La vidéo ci-dessous, réalisée par NVIDIA, le montre bien : il est possible de faire varier les nombres d’entrée pour générer un résultat lisse.
https://www.youtube.com/watch?v=6E1_dgYlifc1
Les GAN et moi : le bon, le mauvais et le faux.
Les modèles d’apprentissage automatique dépendent de grands ensembles de données de haute qualité. Ces ensembles de données sont coûteux en temps et en argent, ils peuvent ne pas être parfaitement conçus pour le modèle prévu et peuvent contenir des données réelles sensibles. Les GAN ont la possibilité de résoudre certains de ces problèmes en créant des ensembles de données synthétiques, un GAN pouvant créer un grand jeu de données synthétiques à partir d’un jeu de données réelles plus petit.
En tant que spécialiste des données, cela me passionne , car les GAN pourraient faciliter la création d’ensembles de données d’entraînement plus importants et plus rentables, ce qui permettrait d’accélérer le développement de l’IA. Bien que les GAN ne soient pas la solution miracle pour créer des ensembles de données d’apprentissage automatique (car après tout, un GAN a besoin d’un ensemble de données pour s’entraîner), je les imagine devenir un outil utile pour accélérer de nombreux projets à l’avenir. En outre, il devrait être plus facile d’entraîner des modèles sur des jeux de données plus sensibles (tels que les dossiers médicaux), car la sortie du GAN est moins sensible du fait qu’elle n’est pas réelle ! J’imagine que cela aura d’énormes avantages pour la société, car beaucoup plus de scientifiques des données (moi y compris) pourraient développer des modèles pour détecter divers problèmes de santé à partir de « faux » dossiers médicaux, en abaissant la barrière à l’entrée puisque les données réelles des patients ne sont pas utilisées.
Cependant, la créativité des GAN entraîne des questions sociétales. En peu de temps, il est devenu possible d’obtenir des photos de visages humains d’un réalisme stupéfiant, créant ainsi des photos gratuites et illimitées de visages humains à la demande. La question n’est pas de savoir si les GAN vont perturber le secteur de la modélisation, mais plutôt de savoir si nous les laisserons faire. De nombreuses autres industries créatives pourraient être confrontées à une concurrence similaire si un investissement informatique comparable leur est dédié, et la société devrait se pencher sur ces questions le plus tôt possible.
Enfin, nous devrions nous préoccuper de la falsification, car après tout, les GAN sont optimisés pour être de grands faussaires. Les « deepfakes » sont très préoccupants : un GAN apprend le visage d’une personne et peut ensuite utiliser cette connaissance pour échanger le visage d’une image existante. Il peut s’agir d’une action malveillante, par exemple l’altération de preuves criminelles pour faire accuser quelqu’un sur la scène du crime ou pour générer de fausses informations. Bien que la plupart des développements en matière d’IA aient pour origine le désir d’avoir un impact positif, il faut toujours se demander si la technologie ne sera pas utilisée à mauvais escient.
Que nous réserve l’avenir ?
Comme vous l’avez vu dans ce blog, même si cette technologie est relativement récente, les GAN peuvent être utilisés pour générer des résultats incroyablement réalistes. Cependant, à l’heure actuelle, chaque GAN formé est assez spécialisé, car il n’est capable de créer des données que dans le domaine dans lequel il a été entraîné.
À l’avenir, non seulement la précision des GAN s’améliorera, mais je prévois qu’ils deviendront plus généralistes, capables de produire des données dans plusieurs domaines. Toutefois, même si cela se réalise, je ne pense pas que l’IA remplacera de sitôt nos Global Analytics and Cognitive Lead.