1. Pourquoi la mémoire est cruciale
Reprenons l'analogie du collaborateur. Imaginez que vous embauchez quelqu'un qui :
- Ne se souvient pas de la conversation qu'il vient d'avoir avec vous
- Oublie tous vos clients, vos projets, vos préférences entre chaque journée
- Ne sait jamais où trouver l'information dans votre documentation interne
Ce serait catastrophique. C'est pourtant exactement ce qu'est un LLM "nu" sans mémoire : un cerveau brillant qui réinitialise tout entre chaque appel.
La mémoire est ce qui transforme un LLM en agent vraiment utile. Elle a 3 niveaux complémentaires, chacun répondant à un besoin spécifique.
2. Mémoire 1 : Court terme (contexte de conversation)
C'est la mémoire la plus simple et la plus immédiate. Elle correspond aux messages échangés pendant une exécution ou une conversation en cours.
Comment ça marche techniquement
À chaque appel au LLM, vous envoyez tout l'historique récent : le prompt système, les messages utilisateur précédents, les réponses du LLM, les résultats des outils appelés. Tout ça forme le contexte que le modèle "voit".
La taille de ce contexte est limitée par la fenêtre de contexte du modèle :
| Modèle | Fenêtre de contexte | Équivalent |
|---|---|---|
| Claude Sonnet 4 | 200 000 tokens | ~150 000 mots = un livre de 500 pages |
| Claude Opus 4.7 (1M) | 1 000 000 tokens | Plusieurs livres entiers |
| GPT-4o | 128 000 tokens | ~95 000 mots = 300 pages |
| Mistral Large | 128 000 tokens | ~95 000 mots |
| Claude Haiku | 200 000 tokens | Idem Sonnet (économique) |
Quand c'est suffisant
Pour beaucoup de cas, la mémoire court terme suffit :
- Conversations en une session (chatbot qui répond pendant 5-10 échanges)
- Tâches courtes (l'agent fait son travail puis termine, pas besoin de mémoriser après)
- Recherches ponctuelles (Q&R isolées)
Limites
- Effacement total dès que la session se termine
- Coût : plus le contexte grandit, plus chaque appel LLM coûte cher (proportionnel)
- Performance : les très gros contextes (100k+ tokens) ralentissent et l'attention du modèle se dilue
3. Mémoire 2 : Long terme (base de données classique)
Pour qu'un agent se souvienne entre les sessions, il faut une mémoire externe. La plus simple : une base de données classique (Postgres, Airtable, Notion, Google Sheets).
Comment ça marche
Vous donnez à l'agent deux outils :
save_memory(key, value, metadata): stocke une informationload_memory(key)ousearch_memory(query): récupère une information
L'agent décide lui-même quoi mémoriser, et quand. Au début de chaque conversation ou exécution, il peut commencer par charger les éléments pertinents (par exemple : "Charge les préférences du client X" si l'utilisateur lui parle d'un client).
Exemples de mémoire long terme
Outils recommandés pour PME
- Airtable : zéro code, interface humaine consultable, parfait pour démarrer. Limite : 1500 enregistrements gratuits.
- Notion (avec API) : si vous l'utilisez déjà, idéal pour intégration native.
- Google Sheets : simple, gratuit, mais lent à grand volume.
- Postgres (avec n8n auto-hébergé) : robuste, performant, gratuit. Recommandation AzenFlow pour les déploiements sérieux.
- Supabase : Postgres managé avec API REST/GraphQL, free tier généreux.
Pour 90 % des cas PME, Airtable suffit pour démarrer. Migrez vers Postgres quand vous dépassez 5000 entrées ou que vous avez besoin de requêtes complexes.
4. Mémoire 3 : Vectorielle (RAG)
C'est la mémoire la plus puissante mais aussi la plus subtile. Elle permet à l'agent de retrouver une information par sens, pas par mot-clé exact.
Le problème qu'elle résout
Imaginez que votre PME a 500 documents internes : procédures, FAQ, cas clients, comptes-rendus de réunion, manuels produit. Un agent doit répondre à : "Comment on traite les retours produits abîmés en transport ?"
Avec une recherche par mots-clés classique, l'agent cherche "retour produit abîmé transport" et ne trouve rien parce que le document s'appelle "Procédure SAV - Article reçu endommagé livraison" (mêmes idées, mots différents).
Avec une recherche vectorielle, l'agent comprend que les deux phrases parlent de la même chose et trouve le document. C'est ça, la magie du RAG.
Comment ça marche techniquement
Trois étapes :
- Indexation : chaque document est découpé en morceaux (chunks de 200 à 1000 mots). Chaque chunk est transformé en vecteur (une longue liste de chiffres, typiquement 1536 ou 3072 dimensions) via un modèle d'embedding (OpenAI text-embedding-3, Mistral Embed, etc.). Les vecteurs sont stockés dans une base vectorielle.
- Recherche : quand l'agent reçoit une question, on transforme la question en vecteur (avec le même modèle d'embedding). On cherche dans la base les vecteurs les plus proches (similarité cosinus). On récupère les 3 à 10 chunks les plus pertinents.
- Génération : on injecte ces chunks dans le contexte du LLM ("Voici les documents pertinents : [chunks]. Réponds à la question : [question]"). Le LLM répond en se basant sur ces extraits.
Outils de base vectorielle
| Outil | Type | Coût | Pour qui |
|---|---|---|---|
| pgvector | Extension Postgres | Gratuit (votre serveur) | Recommandé PME démarrant |
| Qdrant | Open-source dédié | Gratuit auto-hébergé, 25€/mois cloud | Volumes moyens (10k+ docs) |
| Pinecone | Cloud managé | Free tier puis 70€/mois | Cherche pas se prendre la tête |
| Weaviate | Open-source | Gratuit auto-hébergé | Besoins avancés (filtres complexes) |
| Chroma | Léger embeddable | Gratuit | Prototypage rapide |
Cas d'usage typiques RAG en PME
- Support client intelligent : agent qui consulte automatiquement la base de connaissances pour répondre.
- Assistant juridique : retrouve les bonnes jurisprudences ou clauses contractuelles types.
- Onboarding nouveaux salariés : agent qui répond aux questions à partir de la doc interne.
- Recherche commerciale : retrouve les bons cas clients similaires pour préparer une proposition.
- Aide technique : retrouve la procédure adaptée à un problème décrit en langage naturel.
5. Coûts d'une mémoire vectorielle pour PME
Soyons concrets sur les coûts réels.
6. Architecture mémoire recommandée pour PME
Voici l'architecture qu'AzenFlow recommande pour une PME française qui démarre avec les agents IA :
Évolution selon la maturité
- Démarrage (1-3 agents) : Postgres + pgvector sur VPS Hostinger. Coût : 25 €/mois.
- Croissance (5-15 agents) : Ajout Redis pour cache et queue, scale Postgres. Coût : 50 €/mois.
- Maturité (15+ agents, 50k+ docs) : Migration vers Qdrant dédié, Postgres en réplication. Coût : 100-200 €/mois.
7. Pièges et bonnes pratiques RAG
Piège 1 : Chunks trop grands ou trop petits
Si chaque chunk fait 5000 mots, vous récupérez trop de bruit (le LLM s'y perd). Si chaque chunk fait 50 mots, vous perdez le contexte. Sweet spot : 200 à 800 mots par chunk, avec un overlap de 50 à 100 mots entre chunks (pour éviter de couper au mauvais endroit).
Piège 2 : Pas de filtres métadonnées
Si vous avez 5000 documents indexés et que la question concerne juste les "FAQ produits", c'est gâché de chercher dans tout. Ajoutez des métadonnées à chaque chunk (catégorie, date, auteur, type) et filtrez avant la recherche vectorielle. Diminue drastiquement le bruit.
Piège 3 : Index pas mis à jour
Vos documents évoluent. Si un nouveau document arrive ou un ancien est modifié, le RAG renvoie de l'info obsolète. Mettez en place une routine de réindexation : trigger automatique sur ajout/modification dans votre source (Notion, Drive, etc.).
Piège 4 : Questions ambiguës mal traitées
Si la question est trop courte ou ambiguë ("Comment faire ?"), la recherche vectorielle ramène n'importe quoi. Bonne pratique : faire reformuler la question par le LLM avant la recherche ("Cette question manque de contexte. Reformule-la avec plus de détails ou demande des précisions").
Piège 5 : Pas de fallback si rien trouvé
Si la recherche vectorielle ne ramène rien de pertinent, l'agent doit le détecter et soit demander à l'humain, soit dire honnêtement "Je n'ai pas l'info dans ma base". Mieux que d'inventer une réponse hors contexte.
8. Quand utiliser quel type de mémoire
| Cas | Court terme | Long terme | Vectorielle |
|---|---|---|---|
| Chatbot support court (1 session) | ✓ | ||
| Chatbot support persistant (multi-sessions) | ✓ | ✓ | |
| Chatbot support avec base de connaissances | ✓ | ✓ | ✓ |
| Agent commercial (suivi prospects) | ✓ | ✓ | |
| Agent analyste (recherche docs internes) | ✓ | ✓ | |
| Agent RH (politiques internes + historique candidats) | ✓ | ✓ | ✓ |
| Agent simple Q&R sans persistance | ✓ |
Règle d'or : commencez avec la mémoire la plus simple qui résout votre cas. Ajoutez des couches seulement quand le besoin est clair.
9. À retenir avant le chapitre suivant
- 3 types de mémoire complémentaires : court terme (contexte LLM), long terme (DB), vectorielle (RAG)
- Mémoire court terme : suffit pour 60 % des cas, limitée à la session, gratuite
- Mémoire long terme : Airtable pour démarrer, Postgres pour scale. Permet de se souvenir entre sessions.
- Mémoire vectorielle (RAG) : pour interroger une base de documents. pgvector recommandé pour PME démarrant.
- Coûts RAG PME : ~6 € initial + 6-21 €/mois pour 1000 documents
- Architecture stack PME : Postgres + pgvector + n8n sur VPS Hostinger France = 25 €/mois
- 5 pièges RAG : chunks mal taillés, pas de filtres, index pas mis à jour, questions ambiguës, pas de fallback
Au chapitre 6, on attaque le sujet le plus important pour la production : les garde-fous et le Human-in-the-Loop. Comment garantir que votre agent reste sous contrôle, même quand il devient autonome.