Accélérez votre transformation numérique avec Everense

Comment les grands modèles linguistiques(LLM) comprennent votre écriture

Comment les grands modèles linguistiques(LLM) comprennent votre écriture

Comment les grands modèles linguistiques(LLM) comprennent votre écriture

Les grands modèles de langage (LLM) sont des types de programmes d’intelligence artificielle (IA) formés sur de vastes ensembles de données – d’où le nom « grand » – qui leur permettent de reconnaître, de comprendre et de créer des textes en langage naturel, entre autres tâches.
Grâce à leurs contributions significatives à l’avancement de l’IA générative, les LLM ont récemment été largement reconnus.
Ils sont également devenus un point focal pour les organisations qui cherchent à intégrer l’intelligence artificielle dans une variété d’opérations et d’applications commerciales.
Les LLM apprennent à comprendre et à traiter le langage humain et d’autres données complexes en étant exposés à des quantités massives d’exemples, ce qui signifie souvent des milliers ou des millions de gigaoctets de texte provenant de l’ensemble de l’internet.
Ces modèles tirent parti de l’apprentissage profond pour déterminer les relations entre les caractères, les mots et les phrases en analysant de manière probabiliste les données non structurées.
Cela leur permet d’identifier différents types de contenu de manière autonome, sans avoir besoin de conseils humains directs.
Qu’il s’agisse de comprendre des questions, de rédiger des réponses, de classer des contenus, de compléter des phrases ou même de traduire un texte dans une autre langue, ces modèles d’IA peuvent être adaptés pour résoudre des problèmes spécifiques dans différents secteurs.
À l’instar des super-lecteurs dans une bibliothèque géante remplie de livres, ils absorbent des tonnes d’informations pour apprendre comment fonctionne le langage.
Dans cet article, nous allons nous plonger dans le monde fascinant des grands modèles de langage et de leur fonctionnement interne.

Principales caractéristiques des grands modèles linguistiques

Grandes dimensions Badge 1 avec remplissage solide
  • Énormes quantités de données pour l’entraînement des modèles (de l’ordre du pétaoctet)
  • Nombre d’hyperparamètres – Les connaissances et les compétences que la machine apprend et retient après avoir été entraînée.
Usage général Badge avec remplissage solide
  • La capacité des LLM à résoudre des problèmes communs, compte tenu de la nature universelle du langage humain et des limitations des ressources (seule une poignée d’entreprises est en mesure de développer des modèles aussi complexes, c’est-à-dire des modèles fondamentaux que d’autres peuvent utiliser).
Pré-entraîné, ajusté et multimodal Badge 3 avec remplissage solide
  • Pré-entraîné sur d’énormes ensembles de données pour un usage général
  • Affiné pour des tâches spécifiques, en utilisant une taille relativement petite d’ensembles de données de terrain – telles que des données sur le commerce de détail, la finance, la médecine ou les loisirs.
  • Peut être multimodale, c’est-à-dire combiner des informations textuelles et visuelles.
  • La performance augmente continuellement après l’ajout d’informations et de paramètres supplémentaires.

Mécanique de base des grands modèles linguistiques

Au cœur des LLM, nous rencontrons le modèle de transformateur, qui est crucial pour comprendre le fonctionnement de ces modèles.
Les transformateurs sont constitués d’un encodeur et d’un décodeur, qui traitent les données en décomposant les entrées en jetons.
Ils effectuent des calculs mathématiques complexes pour analyser les relations entre ces jetons et aboutir à un résultat.
En substance, le codeur « code » la séquence d’entrée et la transmet au décodeur, qui apprend à « décoder » les représentations pour une tâche pertinente.

Les transformateurs permettent à un ordinateur de reconnaître des modèles similaires à la cognition humaine.
Ces modèles s’appuient sur des mécanismes d’auto-attention, ce qui leur permet d’apprendre plus rapidement que les modèles plus anciens, tels que les modèles de mémoire à long terme (LSTM).
Le mécanisme d’auto-attention leur permet de traiter chaque segment d’une séquence de mots tout en tenant compte du contexte fourni par les autres mots de la même phrase.

Encodage des entrées

La première étape consiste à convertir la phrase d’entrée en une série d’enchâssements de mots.
Chaque mot est transformé en un vecteur qui représente sa signification sémantique dans un espace à haute dimension.
L’intégration de mots permet de capturer efficacement le sens d’un mot, en veillant à ce que les mots positionnés étroitement dans l’espace vectoriel partagent des significations similaires.

Example: [Embedding for 'The', Embedding for 'cat', Embedding for 'sat', Embedding for 'on', Embedding for 'the', Embedding for 'mat', Embedding for '.']

Générer des requêtes, des clés et des valeurs

Ensuite, le mécanisme d’auto-attention produit trois formes différentes d’encastrements d’entrée : les requêtes, les clés et les valeurs.
Celles-ci sont créées par des transformations linéaires des enregistrements originaux et jouent un rôle clé dans le calcul des scores d’attention.

Queries: [Query for 'The', Query for 'cat', Query for 'sat', Query for 'on', Query for 'the', Query for 'mat', Query for '.']
Keys: [Key for 'The', Key for 'cat', Key for 'sat', Query for 'on', Query for 'the', Query for 'mat', Query for '.']
Values: [Value for 'The', Value for 'cat', Value for 'sat', Query for 'on', Query for 'the', Query for 'mat', Query for '.']

Exemple de données aléatoires

Queries: [[0.23,0.4,0.67,...],[0.4,0.6,0.67,...],[0.2,0.2,0.67,...],[0.5,0.3,0.8,...], [0.1,0.4,0.67,...], [0.2,0.4,0.67,...],[0.7,0.4,0.6,...]] 
Keys: [[0.1,0.4,0.5,...],[0.2,0.4,0.67,...],[0.3,0.4,0.67,...],[0.4,0.4,0.67,...], [0.5,0.4,0.67,...], [0.6,0.7,0.8,...],[0.6,0.4,0.8,...]]
Values: [[0.4,0.5,0.67,...],[0.23,0.4,0.5,...],[0.23,0.4,0.8,...],[0.23,0.4,0.45,...],[0.23,0.4,0.9,...],[0.23,0.4,0.6,...],[0.23,0.4,0.10,...]]

Détermination des scores d’attention

Attention scores for 'The': [0.9,0.7,0.5, 0.4,0.45,0.56,0.23]
Attention scores for 'cat': [0.6,0.5,0.7, 0.23,0.44,0.58,0.23]
...
Attention scores for '.': [0.3,0.5,0.9, 0.4,0.45,0.56,0.23]

Utilisation de SoftMax

Example: Softmax of attention scores for 'The': [0.29, 0.1, 0.12, 0.14, 0.1, 0.1, 0.14]

Calcul de la somme pondérée

Example: Context-aware representation: [0.29 * Value for 'The' + 0.1 * Value for 'cat' + 0.12 * Value for 'sat' + …]

La représentation qui en résulte saisit la signification contextuelle de tous les mots, en tenant compte de leurs associations avec d’autres mots de la phrase, ce qui améliore les capacités prédictives du modèle.
Après multiplication des valeurs, vous obtenez une matrice 2D.
Le modèle linguistique sélectionne ensuite l’option la plus probable.
Cette méthode est connue sous le nom d' »approche gourmande », qui se caractérise par un manque de créativité, le modèle optant systématiquement pour le même mot.
Au contraire, le modèle linguistique peut également faire son choix de manière aléatoire, ce qui conduit à des résultats plus créatifs.
Dans la phrase : Le chat s’est assis sur…, le mot suivant sera très probablement « le ».
Cependant, si nous choisissons au hasard parmi d’autres options, nous pouvons obtenir quelque chose comme « bouteille » ou « assiette« , qui a évidemment une probabilité beaucoup plus faible.
Pour contrôler les niveaux de créativité, nous devons ajuster le paramètre de température qui influence les résultats des modèles.
La température est une valeur numérique (souvent comprise entre 0 et 1, mais parfois plus élevée) qui est essentielle pour affiner les performances du modèle.
Ajustement de la température: Ce paramètre est directement incorporé dans la fonction SoftMax.
En résumé, si nous voulons obtenir les mêmes réponses sans créativité, nous devons diminuer la température.
En revanche, si nous voulons des réponses plus fraîches et plus originales, nous devons augmenter la valeur du paramètre.
Nous décrivons ci-après comment différentes valeurs de température modifient la distribution de probabilité du mot suivant dans une phrase :

  • Température basse (inférieure à 1.0) – Une température inférieure à 1 permet au modèle d’obtenir des résultats plus prévisibles et moins diversifiés.
    Il réduit les choix du modèle, en optant souvent pour le mot le plus probable, ce qui peut donner l’impression que le texte est moins créatif ou varié, voire un peu plus mécanique.
    Ce paramètre est idéal lorsque vous souhaitez obtenir des réponses directes et moins surprenantes.
  • Température élevée (supérieure à 1.0) – Une température supérieure à 1 introduit plus d’imprévisibilité dans la génération du texte.
    Le modèle s’aventure au-delà des choix évidents, en choisissant des mots moins probables, ce qui peut rendre le contenu plus diversifié et potentiellement plus créatif.
    Mais attention, cela peut également entraîner davantage d’erreurs, voire des éléments absurdes, car le modèle s’éloigne davantage des chemins de probabilité de ses données d’apprentissage.
  • Régler la température à 1,0 – Souvent le juste milieu, une température de 1,0 cherche à trouver un équilibre entre le prévisible et l’imprévisible.
    Dans cette configuration, le modèle produit un texte qui est un mélange, ne basculant ni trop dans la monotonie ni trop dans le chaos, ce qui reflète la distribution de probabilités sur laquelle il a été formé.

 

Types de grands modèles linguistiques

La terminologie que nous utilisons pour catégoriser les différents types de grands modèles de langage ne cesse d’évoluer, car ils deviennent extrêmement flexibles et adaptables.
Voici les trois principaux types de LLM dont vous entendrez souvent parler :

  1. Modèles linguistiques génériques: Ce modèle est entraîné à prédire le mot suivant (également appelé  » token ») sur la base de la langue des données d’apprentissage.
    Dans l’exemple suivant, la phrase « Le chat s’est assis sur… », le mot suivant devrait être « le », qui est le mot suivant le plus probable.
    Considérez ce type de LLM comme une fonction d’autocomplétion très sophistiquée dans le cadre d’une recherche.

Ces modèles calculent la probabilité d’apparition d’un jeton ou d’une série de jetons dans une séquence plus longue de jetons.
En considérant un jeton comme un mot, un modèle de langage prédit les chances que divers mots ou séquences de mots remplissent le vide.

  1. Accordé à l’instruction: Ce type de modèle prédit une réponse aux instructions données en entrée.
    Par exemple, si vous demandez de résumer un texte de « x » et de générer un poème dans le style de « x », donnez-moi une liste de mots-clés basée sur la similarité sémantique pour « x ».

Cette approche a un objectif similaire à celui du réglage fin, en ce sens qu’elle forme un modèle à une tâche particulière par le biais d’invites à quelques coups ou à zéro coup.
Une invite est essentiellement une instruction fournie à un LLM.
L’incitation à quelques coups apprend au modèle à prédire les résultats en présentant des exemples.
Par exemple, dans le cadre d’une tâche d’analyse des sentiments, un message-guide de quelques secondes peut apparaître comme suit :

Exemple d’incitation à l’analyse de sentiments à partir d’un petit nombre d’images

  • Commentaire du client : Cette plante est tellement belle !
  • Sentiment des clients : Positif
  • Commentaire du client : Cette plante est tellement hideuse !
  • Sentiment des clients : Négatif

Le modèle linguistique, conscient de l’implication sémantique de « hideux », et compte tenu du contexte d’un exemple opposé, discernerait que le sentiment du client dans le second cas est « négatif ».
D’autre part, l’invite « zéro » ne s’appuie pas sur des exemples pour guider la réponse du modèle linguistique aux entrées.
Il formule plutôt l’invite comme suit : « Le sentiment dans ‘Cette plante est si hideuse’ est… », signalant directement la tâche à effectuer par le modèle sans offrir d’exemples pour la résolution du problème.
Nous pouvons également classer le texte comme neutre, négatif ou positif dans un contexte donné.

  1. Dialogué: Ce type de modèle est entraîné à avoir un dialogue avant la réponse suivante.
    Les modèles axés sur le dialogue sont un cas particulier des modèles axés sur les instructions, dans lesquels les demandes sont généralement formulées sous forme de questions adressées à un chatbot.
    Le dialogue est censé se dérouler dans le contexte d’une conversation plus longue et fonctionne généralement mieux avec des formulations naturelles de type question.

Ce type de LLM peut inclure un raisonnement par chaîne de pensée, c’est-à-dire l’observation que les modèles obtiennent mieux la bonne réponse lorsqu’ils produisent d’abord un texte expliquant la raison de la réponse.

Exemples d’invites
Les modèles obtiennent plus facilement la bonne réponse lorsqu’ils produisent d’abord un texte expliquant la raison de la réponse. Flèche : Légère courbe avec remplissage solide Q : Roger a 5 balles de tennis.
Il achète 2 autres boîtes de balles de tennis.
Chaque boîte contient 3 balles de tennis.
Combien de balles de tennis a-t-il maintenant ?

A :

Le modèle a moins de chances d’obtenir directement la bonne réponse Flèche : Légère courbe avec remplissage solide Q : Roger a 5 balles de tennis.
Il achète 2 autres boîtes de balles de tennis.
Chaque boîte contient 3 balles de tennis.
Combien de balles de tennis a-t-il maintenant ?
R : Réfléchissons étape par étape.

Désormais, la sortie a plus de chances de se terminer par la bonne réponse Flèche : Légère courbe avec remplissage solide R : Roger a commencé avec 5 balles.
2 boîtes de 3 balles de tennis chacune représentent 6 balles de tennis.
5 + 6 = 11.
La réponse est 11.

Les LLM les plus populaires aujourd’hui

Les grands modèles de langage ont joué un rôle décisif dans l’essor de la technologie de l ‘IA générative observé en 2023.
La plupart de ces modèles sont construits sur l’architecture des transformateurs, comme la série Generative Pre-trained Transformer (GPT) et Bidirectional Encoder Representations from Transformers (BERT).
Après son lancement en 2022, ChatGPT (d’OpenAI) a rapidement gagné une base d’utilisateurs massive, attirant plus de 100 millions d’utilisateurs en l’espace de deux mois seulement.
Ce succès a suscité la publication de nombreux modèles concurrents provenant de grandes entreprises telles que Google et Microsoft, ainsi que de la communauté des logiciels libres.
Le paysage des LLM comprend un large éventail de modèles influents, à la fois historiques et contemporains, qui ont préparé le terrain pour les leaders actuels ou qui sont sur le point d’avoir un impact significatif sur l’avenir.
Parmi ces modèles, certains ont façonné l’orientation des capacités d’IA d’aujourd’hui, tandis que d’autres, peut-être moins reconnus, ont le potentiel de faire avancer la prochaine vague d’innovations.
Vous trouverez ci-dessous quelques-uns des grands modèles de langage les plus importants à l’heure actuelle, connus pour leurs capacités de traitement du langage naturel et leur influence sur la conception des modèles futurs :

  • BERT : Introduit par Google en 2018, BERT représente une série de LLM construits sur la technologie des transformateurs, capables de transformer des séquences de données en d’autres séquences de données.
    L’architecture de BERT consiste en une série d’encodeurs transformateurs, totalisant 342 millions de paramètres.
    Initialement pré-entraîné sur un vaste ensemble de données, BERT a ensuite été affiné pour des tâches particulières, notamment l’inférence du langage naturel et la similarité des textes au niveau des phrases.
    Dans sa mise à jour de 2019, Google Search s’est appuyé sur BERT pour améliorer sa compréhension des requêtes de recherche.
  • Gemini : Gemini – la suite de LLM de Google – alimente le chatbot de l’entreprise et partage son nom avec lui, succédant ainsi à PaLM et faisant l’objet d’un changement de marque de Bard à Gemini.
    Unique par ses capacités multimodales, les modèles Gemini peuvent traiter non seulement du texte, mais aussi des images, de l’audio et de la vidéo.
    Ils ont été intégrés dans un grand nombre d’applications et de produits de Google, avec les variantes Ultra, Pro et Nano.
    Ultra représente l’option la plus grande et la plus sophistiquée, Pro sert de modèle intermédiaire et Nano est la version la plus petite, optimisée pour l’efficacité des opérations sur l’appareil.
  • GPT-3.5 : GPT-3.5, une variante améliorée de GPT-3, comporte un nombre réduit de paramètres et a été affiné grâce à l’apprentissage par renforcement basé sur le retour d’information humain.
    Cette version renforce les capacités de ChatGPT.
    Parmi ses variantes, GPT-3.5 Turbo se distingue comme étant la plus avancée, selon l’évaluation d’OpenAI.
    L’ensemble de données d’entraînement pour GPT-3.5 s’étend jusqu’en septembre 2021.
    En outre, il a récemment été intégré au moteur de recherche Bing, bien qu’il ait été remplacé par GPT-4.
  • GPT-4 : Sorti en 2023, GPT-4 est le plus grand modèle de la gamme GPT d’OpenAI.
    Fidèle à la tradition, il est construit sur une structure de transformateur.
    Cependant, le nombre exact de ses paramètres n’a pas été révélé, mais des spéculations suggèrent qu’il dépasse les 170 billions.
    OpenAI souligne les capacités multimodales de GPT-4, qui lui permettent de comprendre et de créer du contenu sous forme de texte et d’images, au-delà des simples fonctions textuelles de ses prédécesseurs.
    En outre, GPT-4 apporte une nouvelle fonctionnalité – une fonction de message système, permettant aux utilisateurs de définir le ton de la voix et des tâches spécifiques.
  • Llama : En 2023, Meta a présenté son grand modèle de langage, Llama, marquant ainsi son entrée dans l’arène du LLM.
    Pouvant compter jusqu’à 65 milliards de paramètres dans sa plus grande itération, Llama a d’abord servi un groupe exclusif de chercheurs et de développeurs avant de passer à un modèle open-source.
    Construit sur le modèle du transformateur, l’entraînement de Llama a impliqué un groupe diversifié d’ensembles de données publiques, tels que CommonCrawl, GitHub, Wikipédia et le Projet Gutenberg.
    À la suite d’une fuite involontaire, Llama a donné naissance à une série de produits dérivés, dont Vicuna et Orca, élargissant ainsi son héritage dans le domaine de l’IA.
  • Orca : Orca de Microsoft, avec ses 13 milliards de paramètres, est suffisamment compact pour être utilisé sur un ordinateur portable.
    Il cherche à tirer parti des progrès réalisés par d’autres modèles à code source ouvert en reproduisant les capacités de raisonnement des grands modèles de langage.
    Bien qu’ayant beaucoup moins de paramètres, Orca atteint les performances de GPT-4 et égale GPT-3.5 dans de nombreuses tâches.
    Le fondement d’Orca est l’itération de 13 milliards de paramètres de LLaMA.
  • xAI Grok : à la mi-mars 2024, X.ai a dévoilé le chatbot Grok-1, le plus grand modèle de langage (LLM) « open-source » à ce jour, avec 314 milliards de paramètres.
    Il s’agit du plus grand modèle open-source disponible, dépassant largement les modèles précédents tels que Falcon 180B, qui comptait 180 milliards de paramètres.
    Grok-1 repose sur un modèle de mélange d’experts (MoE), qui n’active que 25 % de ses poids pour un élément spécifique lors de l’inférence.
    Les déclarations officielles indiquent qu’il n’a pas fait l’objet d’une mise au point pour des utilisations particulières telles que les agents conversationnels.

Surmonter les défis

La plupart des informations utilisées pour former des modèles linguistiques de pointe proviennent de la collecte de textes sur l’ensemble de l’internet, comme l’ensemble de données Common Crawl, qui contient des données provenant de plus de 3 milliards de pages web.
Ces données massives contiennent une tonne d’informations privées provenant de tous les types de personnes qui ont quelque chose à leur sujet en ligne.
Ces informations peuvent être exactes ou inexactes, voire carrément fausses.
Ce type de scénario soulève des problèmes de protection des données et de la vie privée qui sont exceptionnellement difficiles à résoudre.
En outre, en l’absence de mesures de protection adéquates, les résultats générés par les modèles linguistiques à grande échelle pourraient divulguer des données sensibles ou privées contenues dans les ensembles de données d’apprentissage, ce qui pourrait entraîner des violations de données réelles ou potentielles.
L’avantage est que les grands modèles de langage (LLM) ne sont pas conçus avec des défauts qui les rendent susceptibles de divulguer des données privées dès le départ.
Un grand modèle ne va pas se mettre à divulguer des informations privées en raison de son mode de fabrication.
Le risque de violation des données est plutôt lié à la façon dont les personnes qui gèrent le modèle le gèrent et l’utilisent.
D’autre part, les grands modèles de langage peuvent occasionnellement « halluciner », en générant de fausses informations qui semblent exactes.
Ces hallucinations peuvent entraîner la diffusion d’informations incorrectes, absurdes ou trompeuses sur des personnes, ce qui pourrait définitivement nuire à la réputation d’une personne et influencer les décisions qui la concernent.
En outre, lorsque les LLM sont formés sur des ensembles de données biaisées, ils risquent de renforcer, voire d’exacerber les biais de ces données.
Cette situation aboutit à des résultats discriminatoires ou injustes, susceptibles d’enfreindre la norme de traitement équitable des données à caractère personnel.

La voie à suivre

Au fur et à mesure que les grands modèles linguistiques (LLM) évoluent, on s’attend à ce qu’ils s’améliorent dans tous les domaines.
Les futures versions produiront probablement des réponses qui seront non seulement plus cohérentes, mais qui présenteront également des capacités avancées en matière d’identification et de réduction des biais, ainsi qu’une plus grande transparence.
Ces progrès promettent de faire des LLM des outils fiables dans divers secteurs tels que la finance, la fabrication, la génération de contenu, les soins de santé et l’éducation.
Le marché devrait croître en nombre et en diversité de LLM disponibles, offrant aux organisations un plus large éventail d’options pour déterminer le LLM le plus adapté à leurs initiatives spécifiques en matière d’IA.
La personnalisation de ces modèles devrait également devenir beaucoup plus simple et plus précise, ce qui permettra d’optimiser les applications d’IA pour gagner en rapidité, en efficacité et en productivité.
À l’avenir, le coût des grands modèles de langage diminuera considérablement, ce qui permettra aux petites entreprises d’en exploiter les avantages et les capacités.

Partager sur LinkedIn

Vous pourriez être intéréssé(e)

Faites équipe avec Everense pour une transformation numérique réussie

Choisir Everense signifie collaborer avec des experts forts de plus de 7 ans d’expérience, déterminés à vous guider efficacement dans votre transformation numérique.

Vous avez un projet ? Nous serons ravis de vous accompagner !