Qu'est-ce qu'un token IA ? Plongée au cœur du langage des LLMs
Qu'est-ce qu'un Token IA ?
Si vous avez déjà utilisé des modèles de langage (LLMs) comme Llama 3, GPT-4 ou Claude, vous avez probablement rencontré le terme "Token." Que ce soit dans un tableau de prix ("0,01 $ pour 1M de tokens") ou une limite de fenêtre de contexte ("128k tokens"), les tokens sont la monnaie fondamentale de l'IA.
Mais qu'est-ce qu'un token exactement ? Est-ce un mot ? Un caractère ? Un morceau de mot ?
La réponse courte
Un token est l'unité atomique de texte qu'un modèle IA traite. On peut le voir comme un morceau de texte. Selon la méthode de tokenisation, un token peut être aussi court qu'un seul caractère ou aussi long qu'un mot entier.
En moyenne, pour le texte anglais, 1 000 tokens équivalent approximativement à 750 mots.
Plongée en profondeur : comment fonctionne la tokenisation
Les ordinateurs ne peuvent pas "lire" les lettres ou les mots comme le font les humains. Ils ne comprennent que les nombres. Pour combler ce fossé, les LLMs utilisent un processus appelé Tokenisation.
1. Du texte aux identifiants
Le voyage de votre invite au cerveau de l'IA ressemble à ceci :
Texte Brut $\rightarrow$ Tokens $\rightarrow$ Identifiants de Tokens (Nombres) $\rightarrow$ Vecteurs (Embeddings)
2. Pourquoi ne pas utiliser simplement des mots ?
Utiliser des mots entiers est inefficace. Si un modèle devait apprendre chaque variation d'un mot (ex. "marcher," "marchant," "marché," "marcheur"), son vocabulaire serait astronomique.
3. Pourquoi ne pas utiliser simplement des caractères ?
Utiliser des caractères seuls (a, b, c...) est trop granulaire. Le modèle devrait dépenser trop d'"effort" de calcul juste pour réaliser que m-a-r-c-h-e-r forme un seul concept.
4. La solution : tokenisation par sous-mots (BPE)
La plupart des IA modernes utilisent le Byte Pair Encoding (BPE). Cette méthode divise les mots courants en tokens uniques et les mots rares en plusieurs sous-tokens.
Exemple :
- Le mot
voitureest courant $\rightarrow$ 1 token[voiture] - Le mot
tokenisationpourrait être divisé $\rightarrow$ 2-3 tokens[token][is][ation]
Cela permet au modèle de comprendre la racine d'un mot et ses suffixes, lui permettant de traiter des mots qu'il n'a jamais vus auparavant en combinant des morceaux connus.
Pourquoi les tokens comptent pour vous
1. La fenêtre de contexte
Chaque modèle a une "fenêtre de contexte" (ex. 8k, 32k, 128k tokens). C'est la "mémoire à court terme" du modèle. Une fois que votre conversation dépasse cette limite, le modèle commence à "oublier" les premières parties de la conversation pour faire place à de nouveaux tokens.
2. Coût et performances
Puisque les fournisseurs d'IA facturent par token, l'efficacité du tokeniseur impacte directement votre facture.
- Tokenisation inefficace (diviser des mots simples en plusieurs morceaux) = Coût plus élevé & réponse plus lente.
- Tokenisation efficace = Coût réduit & vitesse accrue.
3. Le problème des "maths"
Vous avez peut-être remarqué que certains LLMs ont du mal avec les calculs simples ou l'orthographe. C'est souvent à cause de la tokenisation. Si un modèle voit le nombre 12345 comme deux tokens [12] et [345], il ne voit pas les chiffres individuellement, ce qui peut entraîner des erreurs de calcul.
Tableau récapitulatif
| Unité | Taille | Avantage | Inconvénient |
|---|---|---|---|
| Caractère | Minuscule | Couverture complète | Trop d'étapes pour l'IA |
| Mot | Grand | Unités porteuses de sens | Vocabulaire immense nécessaire |
| Token | Moyen | Meilleur équilibre | Légèrement abstrait pour les humains |
La prochaine fois que vous verrez un compte de tokens, souvenez-vous : vous regardez le puzzle numérique fragmenté que l'IA utilise pour reconstruire la pensée humaine.