Un Gigamodèle dans un magasin de porcelaine… Partie II
15 nov. 2022
Qu’est ce qui change avec les Gigamodèles ?
Dans chacun de leurs domaines, les Gigamodèles établissent le nouvel état de l’art. Ce type de transitions a lieu de façon plus ou moins régulière dans la technologie et les acteurs s’adaptent généralement aux nouvelles approches plus performantes. Qu’est ce qui rend la transition vers les Gigamodèles potentiellement différente des autres ?
La course à la taille
L’une des caractéristiques des Gigamodèles n’est pas seulement qu’ils sont de grande taille, mais qu’il en sort chaque année de plus en plus en gros.
Une petite poignée d’acteurs produisent les Gigamodèles
Concernant l’apprentissage, la révolution de l’apprentissage profond avait déjà amené les laboratoires et équipes de recherche à se doter de GPU (Graphical Processing Units) pour lancer les apprentissages des nombreux paramètres des réseaux de neurones profonds. Mais l’apprentissage d’un Gigamodèle exige des tailles de fermes GPU que seuls quelques acteurs possèdent dans le monde.
De fait, les Gigamodèles sont quasiment tous produits par une petite poignée d’acteurs : Google (Elmo, BERT, T5, Lambda, Imagen…), Microsoft+OpenAI (GPT2, GPT3, Dall-E, Whisper..), NVIDIA (Turing NLG, Megatron-Turing NLG avec Microsoft, RIVA), Meta — ex-Facebook (XLM, Roberta, wav2vec…)
L’émergence d’acteurs spécialisés
Concernant l’utilisation des Gigamodèles, que ce soit leur fine-tuning ou leur déploiement efficace en production , un savoir-faire particulier se développe chez quelques acteurs, tels HuggingFace, première place de diffusion et d’outillage des modèles, mais aussi chez Microsoft avec le format ONNX, ou le fabricant de GPU NVIDIA, avec TensorRT, Triton, NEMO, RIVA…. Il est clair que ces savoir-faire sont clef pour le business-model de ces acteurs, qui tablent, pour l’un sur les revenus des déploiements de modèles dans son Cloud, pour l’autre sur la vente de ses GPU.
Les sociétés qui produisent les Gigamodèles, tels Google et Microsoft, ont généralement également un business model impliquant de la vente ou de la location de capacité de traitement.
L’impact pour la recherche et l’industrie
Quel est l’impact de ces Gigamodèles pour la recherche et l’industrie des services cognitifs, et des technologies du langage et de la parole ?
Il est probablement trop tôt pour évaluer précisément l’impact des Gigamodèles, mais on peut déjà relever les enjeux qu’ils soulèvent et les possibles évolutions.
Recherche : promesse pour les langues peu dotées ; séparation des apprentissages ?
Les Gigamodèles portent en eux la promesse de mieux répondre aux applications portant sur des langues ou des domaines peu dotés, voire sans trace écrite, grâce à des modèles pré-entrainés complétés de corpus supervisés de taille modeste, ou directement grâce à l’apprentissage auto-supervisé. Mais les expérimentations sont encore à mener pour vérifier les conditions d’efficacité de ce type d’approches.
Une autre question est de savoir si la recherche va se scinder entre quelques équipes qui travaillent à la conception des Gigamodèles eux-mêmes, tandis que la majorité des autres qui s’intéressent au fine-tuning, à la production de modèles légers, ou avec peu de données etc.
Industrie : promesse de rapidité ; schisme autour de la donnée et du Cloud ?
Pour l’industrie, la promesse des Gigamodèles est d’abord celle d’une baisse des barrières à l’entrée et d’une baisse des besoins en données d’apprentissage supervisé.
Mais les Gigamodèles exigent aussi des infrastructures et des environnements spécifiques pour l’apprentissage et pour le déploiement en production, de sorte que l’on peut voir se dessiner deux types d’utilisateurs dans l’industrie : ceux qui vont s’appuyer sur les acteurs spécialisés qui offrent des apprentissages et des déploiements outillés dans leur propre cloud, ceux qui vont développer leur capacité en propre en termes d’apprentissage et de production.
On peut représenter ces différents types d’acteurs, dans un schéma ci-dessous, en prenant en compte la taille des infrastructures GPU et la taille des Corpus de données manipulés.
On y voit apparaitre comme un schisme de la donnée et de l’infrastructure, si on se fixe sur les blocs bleus. Ce schisme va-t-il se confirmer ou non, cela reste à voir.
Le modèle de développement de start-ups comme HuggingFace semble miser dessus. L’acteur NVIDIA, qui fournit aussi bien HuggingFace, que les GAFAM et les sociétés et acteurs spécialisés, semble prêt à accompagner aussi d’autres modèles de développement, dans le cas où les blocs taupe, qui reprennent la main sur les données et les infrastructure, prendraient plus d’importance.
En conclusion : des réserves, mais une ligne d’action
Arrivés à la conclusion, il est important de nuancer le propos :
Tout d’abord, les Gigamodèles, aussi prometteurs soient-ils, restent un phénomène récent. Ils coexistent encore largement dans l’industrie avec des modèles hybrides, de la génération précédente, appris sur des données déjà collectées et annotées et qui continuent à garantir des performances élevées sur leur domaine de fonctionnement. L’adoption et l’impact sur l’industrie des Gigamodèles n’est pas encore jouée et va dépendre de l’agilité avec laquelle les acteurs de l’industrie s’en emparent et les intègrent aux applications métier.
Par ailleurs, malgré leurs prouesses croissantes, les limitations des LLM sont à prendre en considération, augmenter la taille des modèles ne résout pas mécaniquement toutes les complexités de la communication parlée, chaque modèle doit trouver sa place et sa pertinence opérationnelle, qui dépend aussi largement des interactions avec les utilisateurs humains.
Enfin, les questions juridiques liées aux données alimentant ces modèles ne peuvent être éludées.
Toutes ces nuances étant posées, il est indéniable que les Gigamodèles bouleversent l’état de la technologie et ouvrent des possibilités applicatives immenses et inexplorées. Si les acteurs Européens ne s’en emparent pas et laissent la main aux grandes plateformes US qui en dominent aujourd’hui la production et le déploiement, ils n’auront pas la possibilité de modeler eux aussi le nouvel écosystème en cours de reconfiguration.
The End !