Cabinet de stratégie IA · 100 % remote · France & Europe
CHAPITRE 5 / 8 13 min de lecture Architecture donnée

Mémoire.
L'agent qui se souvient.

Sans mémoire, chaque interaction recommence à zéro. C'est exactement comme un nouveau salarié à qui vous devez tout réexpliquer chaque matin.

Ce chapitre explique les 3 types de mémoire d'un agent (court terme, long terme, vectorielle), comment chaque type fonctionne techniquement, et l'architecture recommandée pour une PME. Avec un focus particulier sur le RAG (Retrieval-Augmented Generation), la technique la plus puissante pour rendre vos agents intelligents sur vos données métier.

1. Pourquoi la mémoire est cruciale

Reprenons l'analogie du collaborateur. Imaginez que vous embauchez quelqu'un qui :

  • Ne se souvient pas de la conversation qu'il vient d'avoir avec vous
  • Oublie tous vos clients, vos projets, vos préférences entre chaque journée
  • Ne sait jamais où trouver l'information dans votre documentation interne

Ce serait catastrophique. C'est pourtant exactement ce qu'est un LLM "nu" sans mémoire : un cerveau brillant qui réinitialise tout entre chaque appel.

La mémoire est ce qui transforme un LLM en agent vraiment utile. Elle a 3 niveaux complémentaires, chacun répondant à un besoin spécifique.

2. Mémoire 1 : Court terme (contexte de conversation)

C'est la mémoire la plus simple et la plus immédiate. Elle correspond aux messages échangés pendant une exécution ou une conversation en cours.

Comment ça marche techniquement

À chaque appel au LLM, vous envoyez tout l'historique récent : le prompt système, les messages utilisateur précédents, les réponses du LLM, les résultats des outils appelés. Tout ça forme le contexte que le modèle "voit".

La taille de ce contexte est limitée par la fenêtre de contexte du modèle :

ModèleFenêtre de contexteÉquivalent
Claude Sonnet 4200 000 tokens~150 000 mots = un livre de 500 pages
Claude Opus 4.7 (1M)1 000 000 tokensPlusieurs livres entiers
GPT-4o128 000 tokens~95 000 mots = 300 pages
Mistral Large128 000 tokens~95 000 mots
Claude Haiku200 000 tokensIdem Sonnet (économique)

Quand c'est suffisant

Pour beaucoup de cas, la mémoire court terme suffit :

  • Conversations en une session (chatbot qui répond pendant 5-10 échanges)
  • Tâches courtes (l'agent fait son travail puis termine, pas besoin de mémoriser après)
  • Recherches ponctuelles (Q&R isolées)

Limites

  • Effacement total dès que la session se termine
  • Coût : plus le contexte grandit, plus chaque appel LLM coûte cher (proportionnel)
  • Performance : les très gros contextes (100k+ tokens) ralentissent et l'attention du modèle se dilue

3. Mémoire 2 : Long terme (base de données classique)

Pour qu'un agent se souvienne entre les sessions, il faut une mémoire externe. La plus simple : une base de données classique (Postgres, Airtable, Notion, Google Sheets).

Comment ça marche

Vous donnez à l'agent deux outils :

  • save_memory(key, value, metadata) : stocke une information
  • load_memory(key) ou search_memory(query) : récupère une information

L'agent décide lui-même quoi mémoriser, et quand. Au début de chaque conversation ou exécution, il peut commencer par charger les éléments pertinents (par exemple : "Charge les préférences du client X" si l'utilisateur lui parle d'un client).

Exemples de mémoire long terme

Outils recommandés pour PME

  • Airtable : zéro code, interface humaine consultable, parfait pour démarrer. Limite : 1500 enregistrements gratuits.
  • Notion (avec API) : si vous l'utilisez déjà, idéal pour intégration native.
  • Google Sheets : simple, gratuit, mais lent à grand volume.
  • Postgres (avec n8n auto-hébergé) : robuste, performant, gratuit. Recommandation AzenFlow pour les déploiements sérieux.
  • Supabase : Postgres managé avec API REST/GraphQL, free tier généreux.

Pour 90 % des cas PME, Airtable suffit pour démarrer. Migrez vers Postgres quand vous dépassez 5000 entrées ou que vous avez besoin de requêtes complexes.

4. Mémoire 3 : Vectorielle (RAG)

C'est la mémoire la plus puissante mais aussi la plus subtile. Elle permet à l'agent de retrouver une information par sens, pas par mot-clé exact.

Le problème qu'elle résout

Imaginez que votre PME a 500 documents internes : procédures, FAQ, cas clients, comptes-rendus de réunion, manuels produit. Un agent doit répondre à : "Comment on traite les retours produits abîmés en transport ?"

Avec une recherche par mots-clés classique, l'agent cherche "retour produit abîmé transport" et ne trouve rien parce que le document s'appelle "Procédure SAV - Article reçu endommagé livraison" (mêmes idées, mots différents).

Avec une recherche vectorielle, l'agent comprend que les deux phrases parlent de la même chose et trouve le document. C'est ça, la magie du RAG.

Comment ça marche techniquement

Trois étapes :

  1. Indexation : chaque document est découpé en morceaux (chunks de 200 à 1000 mots). Chaque chunk est transformé en vecteur (une longue liste de chiffres, typiquement 1536 ou 3072 dimensions) via un modèle d'embedding (OpenAI text-embedding-3, Mistral Embed, etc.). Les vecteurs sont stockés dans une base vectorielle.
  2. Recherche : quand l'agent reçoit une question, on transforme la question en vecteur (avec le même modèle d'embedding). On cherche dans la base les vecteurs les plus proches (similarité cosinus). On récupère les 3 à 10 chunks les plus pertinents.
  3. Génération : on injecte ces chunks dans le contexte du LLM ("Voici les documents pertinents : [chunks]. Réponds à la question : [question]"). Le LLM répond en se basant sur ces extraits.

Outils de base vectorielle

OutilTypeCoûtPour qui
pgvectorExtension PostgresGratuit (votre serveur)Recommandé PME démarrant
QdrantOpen-source dédiéGratuit auto-hébergé, 25€/mois cloudVolumes moyens (10k+ docs)
PineconeCloud managéFree tier puis 70€/moisCherche pas se prendre la tête
WeaviateOpen-sourceGratuit auto-hébergéBesoins avancés (filtres complexes)
ChromaLéger embeddableGratuitPrototypage rapide

Cas d'usage typiques RAG en PME

  • Support client intelligent : agent qui consulte automatiquement la base de connaissances pour répondre.
  • Assistant juridique : retrouve les bonnes jurisprudences ou clauses contractuelles types.
  • Onboarding nouveaux salariés : agent qui répond aux questions à partir de la doc interne.
  • Recherche commerciale : retrouve les bons cas clients similaires pour préparer une proposition.
  • Aide technique : retrouve la procédure adaptée à un problème décrit en langage naturel.

5. Coûts d'une mémoire vectorielle pour PME

Soyons concrets sur les coûts réels.

6. Architecture mémoire recommandée pour PME

Voici l'architecture qu'AzenFlow recommande pour une PME française qui démarre avec les agents IA :

Évolution selon la maturité

  1. Démarrage (1-3 agents) : Postgres + pgvector sur VPS Hostinger. Coût : 25 €/mois.
  2. Croissance (5-15 agents) : Ajout Redis pour cache et queue, scale Postgres. Coût : 50 €/mois.
  3. Maturité (15+ agents, 50k+ docs) : Migration vers Qdrant dédié, Postgres en réplication. Coût : 100-200 €/mois.

7. Pièges et bonnes pratiques RAG

Piège 1 : Chunks trop grands ou trop petits

Si chaque chunk fait 5000 mots, vous récupérez trop de bruit (le LLM s'y perd). Si chaque chunk fait 50 mots, vous perdez le contexte. Sweet spot : 200 à 800 mots par chunk, avec un overlap de 50 à 100 mots entre chunks (pour éviter de couper au mauvais endroit).

Piège 2 : Pas de filtres métadonnées

Si vous avez 5000 documents indexés et que la question concerne juste les "FAQ produits", c'est gâché de chercher dans tout. Ajoutez des métadonnées à chaque chunk (catégorie, date, auteur, type) et filtrez avant la recherche vectorielle. Diminue drastiquement le bruit.

Piège 3 : Index pas mis à jour

Vos documents évoluent. Si un nouveau document arrive ou un ancien est modifié, le RAG renvoie de l'info obsolète. Mettez en place une routine de réindexation : trigger automatique sur ajout/modification dans votre source (Notion, Drive, etc.).

Piège 4 : Questions ambiguës mal traitées

Si la question est trop courte ou ambiguë ("Comment faire ?"), la recherche vectorielle ramène n'importe quoi. Bonne pratique : faire reformuler la question par le LLM avant la recherche ("Cette question manque de contexte. Reformule-la avec plus de détails ou demande des précisions").

Piège 5 : Pas de fallback si rien trouvé

Si la recherche vectorielle ne ramène rien de pertinent, l'agent doit le détecter et soit demander à l'humain, soit dire honnêtement "Je n'ai pas l'info dans ma base". Mieux que d'inventer une réponse hors contexte.

8. Quand utiliser quel type de mémoire

CasCourt termeLong termeVectorielle
Chatbot support court (1 session)
Chatbot support persistant (multi-sessions)
Chatbot support avec base de connaissances
Agent commercial (suivi prospects)
Agent analyste (recherche docs internes)
Agent RH (politiques internes + historique candidats)
Agent simple Q&R sans persistance

Règle d'or : commencez avec la mémoire la plus simple qui résout votre cas. Ajoutez des couches seulement quand le besoin est clair.

9. À retenir avant le chapitre suivant

  • 3 types de mémoire complémentaires : court terme (contexte LLM), long terme (DB), vectorielle (RAG)
  • Mémoire court terme : suffit pour 60 % des cas, limitée à la session, gratuite
  • Mémoire long terme : Airtable pour démarrer, Postgres pour scale. Permet de se souvenir entre sessions.
  • Mémoire vectorielle (RAG) : pour interroger une base de documents. pgvector recommandé pour PME démarrant.
  • Coûts RAG PME : ~6 € initial + 6-21 €/mois pour 1000 documents
  • Architecture stack PME : Postgres + pgvector + n8n sur VPS Hostinger France = 25 €/mois
  • 5 pièges RAG : chunks mal taillés, pas de filtres, index pas mis à jour, questions ambiguës, pas de fallback

Au chapitre 6, on attaque le sujet le plus important pour la production : les garde-fous et le Human-in-the-Loop. Comment garantir que votre agent reste sous contrôle, même quand il devient autonome.

QUESTIONS FRÉQUENTES

Sur la mémoire.

Le contexte 1M de Claude Opus rend-il la mémoire vectorielle inutile ?

Non, mais ça change la donne. Pour 50 000 mots de docs internes, vous pouvez théoriquement tout mettre dans le contexte. Avantages : pas d'infrastructure RAG, le LLM voit tout. Inconvénients : coût par appel élevé (chaque appel = 1M tokens facturés), latence, "perdu dans le milieu" (le modèle a tendance à oublier ce qui est au milieu d'un très long contexte). Pour une PME : RAG reste plus économique et performant. Le contexte 1M est utile pour des cas spécifiques (analyser 100 contrats en une fois).

Quel modèle d'embedding choisir ?

Trois options recommandées en 2026 : (1) OpenAI text-embedding-3-small : excellent rapport qualité/prix, 0,02 € par million de tokens. (2) Mistral Embed : qualité similaire, hébergement européen possible (souveraineté). (3) Modèles open-source (BGE, E5) si vous voulez tout local. Pour une PME, OpenAI ou Mistral. Important : utilisez le même modèle d'embedding pour l'indexation et la recherche, sinon ça ne marche pas.

Mes documents sont en français, ça marche aussi bien ?

Oui, les modèles d'embedding modernes (OpenAI, Mistral) sont multilingues et performants en français. Si vous avez besoin de la meilleure qualité française possible, Mistral Embed est légèrement supérieur sur les benchmarks francophones. Pour 95 % des cas, OpenAI suffit largement.

RGPD et mémoire long terme : que faire ?

Si votre mémoire stocke des données personnelles (préférences clients, historique), c'est un traitement RGPD. Trois actions : (1) inscrire ce traitement dans votre registre RGPD, (2) prévoir une durée de conservation claire (ex : 24 mois après dernier contact), (3) permettre la suppression sur demande (droit à l'oubli). En pratique, créez un workflow n8n "supprimer les souvenirs liés à ce client" qui se déclenche sur demande.

L'agent peut-il "oublier" ce qu'il sait, comme un humain ?

Oui et c'est important. Vous pouvez programmer une politique d'oubli : suppression automatique des informations non consultées depuis X temps, agrégation des vieux souvenirs en synthèses, archivage. Sans cette politique, la mémoire grossit indéfiniment et ralentit l'agent. Bonne pratique : revue annuelle de la mémoire, suppression des informations obsolètes.

← CHAPITRE 4

Outils (tools) : la connexion au monde réel

CHAPITRE 6 →

Garde-fous et Human-in-the-Loop

Bientôt en ligne.

RAG SUR VOS DOCS ?

Setup RAG complet en 1 semaine.

AzenFlow déploie une architecture RAG souveraine (Postgres + pgvector + n8n + Hostinger France) clé en main pour votre PME.

Réserver l'audit