Définition simple : qu'est-ce qu'un token ?
Un token est l'unité de base que les modèles d'IA générative (LLM) manipulent en interne. Ce n'est ni exactement un mot, ni exactement un caractère : c'est un fragment intermédiaire. Selon le modèle, un token peut être :
- Un mot court entier (par exemple « le », « est », « chat »)
- Une racine de mot (par exemple « déve » dans « développement »)
- Un suffixe (par exemple « -ment », « -tion »)
- Un signe de ponctuation (« . », « , », « ? »)
- Un caractère seul si nécessaire (lettre accentuée non reconnue, emoji, etc.)
Le découpage est fait par un algorithme appelé tokenizer, généralement basé sur la technique BPE (Byte-Pair Encoding). Ce découpage est appris pendant l'entraînement du modèle : il optimise l'efficacité statistique sur les données d'entraînement. C'est pourquoi le découpage varie entre OpenAI, Anthropic, Mistral, Google.
Pourquoi les tokens sont importants pour une PME : 3 raisons.
1. Les API LLM se facturent au token.
Tous les fournisseurs d'API LLM (OpenAI, Anthropic, Mistral, Google) facturent à la consommation de tokens, séparant deux compteurs :
- Tokens d'entrée (input) : ce que vous envoyez au modèle (votre prompt + historique conversation + documents joints)
- Tokens de sortie (output) : ce que le modèle génère en réponse
Les outputs coûtent généralement 3 à 5 fois plus cher que les inputs. Logique : générer du texte demande plus de calcul que le lire.
| Catégorie de modèle | Input (par 1M tokens) | Output (par 1M tokens) |
|---|---|---|
| Modèles compacts (Mistral Small, Gemma léger) | 0,10 à 0,30 € | 0,30 à 1 € |
| Modèles intermédiaires (Mistral, Gemini, etc.) | 0,50 à 3 € | 2 à 12 € |
| Modèles haut de gamme (OpenAI top, Anthropic top) | 3 à 15 € | 10 à 60 € |
Ces ordres de grandeur évoluent (généralement à la baisse) tous les 6-12 mois. Vérifier les pricings officiels au moment de votre projet.
2. Chaque modèle a une fenêtre de contexte maximale.
La fenêtre de contexte (ou context window) est la quantité maximale de tokens qu'un modèle peut traiter en un seul appel. C'est la somme de l'input + l'output. En 2026 :
- Modèles standards : 128 000 tokens (≈ 200 pages de texte)
- Modèles à long contexte : 1 million de tokens (≈ 1 500 pages, équivalent d'un dossier juridique complet)
- Modèles experimentaux : jusqu'à 10 millions de tokens (cas marketing, peu courant en production PME)
Si votre prompt + contexte dépasse cette limite, l'API renvoie une erreur. Vous devez raccourcir, résumer, ou changer de modèle.
3. La qualité des réponses dépend de comment on remplit le contexte.
Plus on met de tokens dans le contexte, plus le risque que le modèle perde son focus augmente. Phénomène documenté en 2024-2025 sous le nom de « lost in the middle » : les modèles donnent moins d'attention à l'information située au milieu d'un long contexte.
Conséquence pratique : si vous chargez un PDF de 500 pages dans un prompt, l'information cruciale en page 250 risque d'être ignorée. Mieux vaut résumer ou extraire les pages pertinentes avant l'appel.
Équivalences concrètes : combien de tokens dans...
| Type de contenu | Tokens approximatifs | Coût input typique (modèle intermédiaire) |
|---|---|---|
| Tweet ou SMS court | 30 à 100 tokens | < 0,001 € |
| Email professionnel court | 200 à 500 tokens | < 0,002 € |
| Email long ou compte-rendu réunion | 800 à 2 000 tokens | 0,002 à 0,006 € |
| Page A4 dense (rapport, contrat) | 500 à 1 000 tokens | 0,001 à 0,003 € |
| PDF 10 pages | 5 000 à 15 000 tokens | 0,015 à 0,045 € |
| PDF 100 pages (rapport mission) | 50 000 à 150 000 tokens | 0,15 à 0,45 € |
| Livre 300 pages | 150 000 à 400 000 tokens | 0,5 à 1,2 € |
| Codebase complète (50 000 lignes) | 300 000 à 500 000 tokens | 1 à 1,5 € |
Comment compter les tokens d'un texte avant de l'envoyer.
3 méthodes pratiques selon le contexte.
Méthode 1 : tokenizer en ligne du fournisseur.
Pour vérifier ponctuellement :
- OpenAI :
platform.openai.com/tokenizer: colle ton texte, voit le nombre de tokens - Anthropic : compteur intégré dans la console développeur
- Mistral : tokenizer en ligne sur leur plateforme
- Tokenizer Playground (HuggingFace) pour tester n'importe quel modèle
Méthode 2 : bibliothèque tiktoken (Python).
Pour automatiser dans un workflow ou script :
import tiktoken
encoder = tiktoken.encoding_for_model("gpt-4o")
texte = "Votre texte à compter ici."
nb_tokens = len(encoder.encode(texte))
print(f"Nombre de tokens : {nb_tokens}")
Tiktoken est une bibliothèque open-source d'OpenAI qui fonctionne pour leurs modèles. Anthropic et Mistral fournissent leurs propres bibliothèques équivalentes.
Méthode 3 : estimation rapide à la main.
Pour un calcul d'ordre de grandeur sans outil : longueur du texte en caractères ÷ 4 (anglais) ou ÷ 3,5 (français). Suffisant pour estimer si on tient dans une fenêtre de contexte.
Pourquoi le français consomme plus de tokens que l'anglais.
Les tokenizers (BPE) sont entraînés statistiquement sur les données d'entraînement, qui sont majoritairement anglaises (60-70 % du corpus pour la plupart des modèles). Résultat : les mots anglais courants reçoivent un seul token, alors que les mots français équivalents sont découpés en plusieurs sous-tokens.
Conséquence : une PME française consomme 1,3 à 1,5 fois plus de tokens qu'une équivalente anglo-saxonne pour un même service. À budgéter dans vos prévisions.
Mistral fait exception partielle : leur tokenizer est mieux optimisé pour le français (entraînement sur un corpus européen plus équilibré), avec une surcharge française réduite à 15-20 %.
5 stratégies pour réduire la facture API LLM de 50 à 80 %.
Stratégie 1 : concision des prompts.
Retirer les mots inutiles, formules de politesse adressées au modèle (« s'il te plaît », « merci »), instructions redondantes. Un modèle ne se vexera pas si vous êtes direct. Gain typique : 20 à 40 % sur les inputs.
Stratégie 2 : choix du modèle adapté à la tâche.
La règle la plus impactante. Pour des tâches simples (classification, extraction, formatage), un modèle compact suffit largement et coûte 10 à 30 fois moins cher qu'un modèle haut de gamme. Réserver les modèles top niveau aux tâches complexes (raisonnement, analyse, génération longue).
Stratégie 3 : prompt caching.
Plusieurs fournisseurs (Anthropic, OpenAI, Google) proposent un système de mise en cache des prompts. Si votre contexte est répétitif (instructions système, base de connaissances, exemples) et que vous l'envoyez plusieurs fois, vous payez le plein tarif la première fois et un tarif réduit (10 à 50 % du tarif normal) ensuite.
Gain : jusqu'à 90 % sur la partie cachée. Particulièrement efficace pour les agents qui rechargent le même prompt système à chaque tour.
Stratégie 4 : compression et résumé du contexte.
Au lieu d'envoyer un PDF de 100 pages, envoyer un résumé pertinent de 5 pages. Au lieu de l'historique complet d'une conversation de 50 tours, envoyer un résumé des points clés + les 3-5 derniers tours. Gain : 50 à 80 % sur les inputs.
Stratégie 5 : batching.
Grouper plusieurs requêtes similaires en un seul appel. Au lieu de classer 10 emails en 10 appels API, les classer ensemble dans un seul appel structuré. Gain : 30 à 60 % (réduction des overheads par appel + meilleure utilisation des coûts fixes).
Suivre sa consommation de tokens en production.
Sans suivi, impossible d'optimiser. 3 niveaux de monitoring selon votre maturité :
- Dashboard du fournisseur : chaque API LLM (OpenAI, Anthropic, Mistral, Google) propose un dashboard de consommation par projet ou par clé API. Suffisant pour démarrer.
- Outils d'observabilité dédiés : Langfuse (open-source, auto-hébergeable, recommandé pour PME), Helicone, LangSmith. Ces outils tracent chaque appel LLM avec tokens utilisés, latence, coût. Permet d'identifier les workflows coûteux.
- Logging custom dans n8n : ajouter un node qui logge chaque appel API et calcule le coût cumulé en temps réel. Permet d'alerter dès qu'un seuil est dépassé (ex : alerte Slack si consommation hebdomadaire dépasse X €).
Le piège classique : les agents qui rechargent leur contexte.
Le cas qui fait exploser les factures sans qu'on s'en rende compte. Un agent IA qui maintient une conversation longue recharge généralement tout son historique à chaque tour. Sur un agent qui converse 100 fois dans la journée avec un client :
- Tour 1 : 1 000 tokens input
- Tour 2 : 2 000 tokens input (l'agent renvoie l'historique du tour 1)
- Tour 50 : 50 000 tokens input (cumul des 49 tours précédents)
- Tour 100 : 100 000 tokens input
Coût total : 5 050 000 tokens input pour une seule conversation (la somme arithmétique des 100 tours). Soit ~25 € sur un modèle intermédiaire, ou ~75 € sur un modèle haut de gamme. Pour UNE conversation.
Solutions : prompt caching (le contexte stable cumulé n'est plus refacturé plein tarif), résumé périodique de l'historique, fenêtre glissante (ne garder que les N derniers tours).
Pour aller plus loin.
- Context engineering : la compétence-clé en 2026 : comment organiser intelligemment ce qu'on met dans le contexte d'un LLM
- Réduire les coûts API LLM de 50 % : techniques d'optimisation immédiates
- Modèles IA open-source 2026 : quand l'open-source self-hosted bat l'API SaaS sur les volumes
- Coût réel d'un agent IA pour PME : 3 profils chiffrés avec consommation tokens