Le contexte 1M de Claude Opus rend-il la mémoire vectorielle inutile ?

Non, mais change la donne. Coût élevé par appel, latence, perdu dans le milieu. Pour une PME, RAG reste plus économique et performant. Contexte 1M utile pour cas spécifiques (analyser 100 contrats en une fois).

Quel modèle d'embedding choisir ?

Trois options : OpenAI text-embedding-3-small (excellent ratio), Mistral Embed (souveraineté EU), modèles open-source (BGE, E5) pour tout local. Important : même modèle pour indexation et recherche.

Mes documents sont en français, ça marche aussi bien ?

Oui, modèles modernes (OpenAI, Mistral) multilingues et performants en français. Mistral Embed légèrement supérieur sur benchmarks francophones. Pour 95% des cas, OpenAI suffit.

RGPD et mémoire long terme : que faire ?

Si données personnelles : (1) inscrire dans registre RGPD, (2) durée conservation claire (24 mois après dernier contact), (3) permettre suppression sur demande. Workflow n8n supprimer souvenirs liés à client.

L'agent peut-il oublier comme un humain ?

Oui et important. Politique d'oubli : suppression auto info non consultées depuis X temps, agrégation vieux souvenirs en synthèses, archivage. Sans politique, mémoire grossit indéfiniment. Revue annuelle recommandée.

Chapitre 5 : Mémoire des agents IA (RAG inclus)

1. Pourquoi la mémoire est cruciale

Reprenons l'analogie du collaborateur. Imaginez que vous embauchez quelqu'un qui :

Ne se souvient pas de la conversation qu'il vient d'avoir avec vous
Oublie tous vos clients, vos projets, vos préférences entre chaque journée
Ne sait jamais où trouver l'information dans votre documentation interne

Ce serait catastrophique. C'est pourtant exactement ce qu'est un LLM "nu" sans mémoire : un cerveau brillant qui réinitialise tout entre chaque appel.

La mémoire est ce qui transforme un LLM en agent vraiment utile. Elle a 3 niveaux complémentaires, chacun répondant à un besoin spécifique.

2. Mémoire 1 : Court terme (contexte de conversation)

C'est la mémoire la plus simple et la plus immédiate. Elle correspond aux messages échangés pendant une exécution ou une conversation en cours.

Comment ça marche techniquement

À chaque appel au LLM, vous envoyez tout l'historique récent : le prompt système, les messages utilisateur précédents, les réponses du LLM, les résultats des outils appelés. Tout ça forme le contexte que le modèle "voit".

La taille de ce contexte est limitée par la fenêtre de contexte du modèle :

Modèle	Fenêtre de contexte	Équivalent
Claude Sonnet 4	200 000 tokens	~150 000 mots = un livre de 500 pages
Claude Opus 4.7 (1M)	1 000 000 tokens	Plusieurs livres entiers
GPT-4o	128 000 tokens	~95 000 mots = 300 pages
Mistral Large	128 000 tokens	~95 000 mots
Claude Haiku	200 000 tokens	Idem Sonnet (économique)

Quand c'est suffisant

Pour beaucoup de cas, la mémoire court terme suffit :

Conversations en une session (chatbot qui répond pendant 5-10 échanges)
Tâches courtes (l'agent fait son travail puis termine, pas besoin de mémoriser après)
Recherches ponctuelles (Q&R isolées)

Limites

Effacement total dès que la session se termine
Coût : plus le contexte grandit, plus chaque appel LLM coûte cher (proportionnel)
Performance : les très gros contextes (100k+ tokens) ralentissent et l'attention du modèle se dilue

3. Mémoire 2 : Long terme (base de données classique)

Pour qu'un agent se souvienne entre les sessions, il faut une mémoire externe. La plus simple : une base de données classique (Postgres, Airtable, Notion, Google Sheets).

Comment ça marche

Vous donnez à l'agent deux outils :

save_memory(key, value, metadata) : stocke une information
load_memory(key) ou search_memory(query) : récupère une information

L'agent décide lui-même quoi mémoriser, et quand. Au début de chaque conversation ou exécution, il peut commencer par charger les éléments pertinents (par exemple : "Charge les préférences du client X" si l'utilisateur lui parle d'un client).

Exemples de mémoire long terme

Outils recommandés pour PME

Airtable : zéro code, interface humaine consultable, parfait pour démarrer. Limite : 1500 enregistrements gratuits.
Notion (avec API) : si vous l'utilisez déjà, idéal pour intégration native.
Google Sheets : simple, gratuit, mais lent à grand volume.
Postgres (avec n8n auto-hébergé) : robuste, performant, gratuit. Recommandation AzenFlow pour les déploiements sérieux.
Supabase : Postgres managé avec API REST/GraphQL, free tier généreux.

Pour 90 % des cas PME, Airtable suffit pour démarrer. Migrez vers Postgres quand vous dépassez 5000 entrées ou que vous avez besoin de requêtes complexes.

4. Mémoire 3 : Vectorielle (RAG)

C'est la mémoire la plus puissante mais aussi la plus subtile. Elle permet à l'agent de retrouver une information par sens, pas par mot-clé exact.

Le problème qu'elle résout

Imaginez que votre PME a 500 documents internes : procédures, FAQ, cas clients, comptes-rendus de réunion, manuels produit. Un agent doit répondre à : "Comment on traite les retours produits abîmés en transport ?"

Avec une recherche par mots-clés classique, l'agent cherche "retour produit abîmé transport" et ne trouve rien parce que le document s'appelle "Procédure SAV - Article reçu endommagé livraison" (mêmes idées, mots différents).

Avec une recherche vectorielle, l'agent comprend que les deux phrases parlent de la même chose et trouve le document. C'est ça, la magie du RAG.

Comment ça marche techniquement

Trois étapes :

Indexation : chaque document est découpé en morceaux (chunks de 200 à 1000 mots). Chaque chunk est transformé en vecteur (une longue liste de chiffres, typiquement 1536 ou 3072 dimensions) via un modèle d'embedding (OpenAI text-embedding-3, Mistral Embed, etc.). Les vecteurs sont stockés dans une base vectorielle.
Recherche : quand l'agent reçoit une question, on transforme la question en vecteur (avec le même modèle d'embedding). On cherche dans la base les vecteurs les plus proches (similarité cosinus). On récupère les 3 à 10 chunks les plus pertinents.
Génération : on injecte ces chunks dans le contexte du LLM ("Voici les documents pertinents : [chunks]. Réponds à la question : [question]"). Le LLM répond en se basant sur ces extraits.

Outils de base vectorielle

Outil	Type	Coût	Pour qui
pgvector	Extension Postgres	Gratuit (votre serveur)	Recommandé PME démarrant
Qdrant	Open-source dédié	Gratuit auto-hébergé, 25€/mois cloud	Volumes moyens (10k+ docs)
Pinecone	Cloud managé	Free tier puis 70€/mois	Cherche pas se prendre la tête
Weaviate	Open-source	Gratuit auto-hébergé	Besoins avancés (filtres complexes)
Chroma	Léger embeddable	Gratuit	Prototypage rapide

Cas d'usage typiques RAG en PME

Support client intelligent : agent qui consulte automatiquement la base de connaissances pour répondre.
Assistant juridique : retrouve les bonnes jurisprudences ou clauses contractuelles types.
Onboarding nouveaux salariés : agent qui répond aux questions à partir de la doc interne.
Recherche commerciale : retrouve les bons cas clients similaires pour préparer une proposition.
Aide technique : retrouve la procédure adaptée à un problème décrit en langage naturel.

5. Coûts d'une mémoire vectorielle pour PME

Soyons concrets sur les coûts réels.

💰 BUDGET RAG PME (1000 documents)

Poste	Coût
Embedding initial des 1000 documents	~3 € (one-shot)
Stockage vectoriel (pgvector sur VPS existant)	0 €
Embedding des questions (1000 par mois)	~0,50 €/mois
Coût LLM pour générer les réponses (1000/mois)	~5 à 20 €/mois
Total	~6 € initial + 6 à 21 €/mois

Pour 10 000 documents : ~30 € initial + 15 à 50 €/mois.

6. Architecture mémoire recommandée pour PME

Voici l'architecture qu'AzenFlow recommande pour une PME française qui démarre avec les agents IA :

🏗️ STACK RECOMMANDÉE

┌─────────────────────────────────────┐
│   VPS Hostinger France (Paris)      │
│                                     │
│   ┌─────────────────────────────┐   │
│   │  PostgreSQL                 │   │
│   │  ├─ Tables métier           │ ← Mémoire long terme
│   │  └─ Extension pgvector      │ ← Mémoire vectorielle
│   └─────────────────────────────┘   │
│                                     │
│   ┌─────────────────────────────┐   │
│   │  n8n auto-hébergé           │   │
│   │  ├─ Workflows agents        │   │
│   │  └─ Mémoire court terme     │ ← Contexte conversation
│   │     (in-memory ou Redis)    │   │
│   └─────────────────────────────┘   │
└─────────────────────────────────────┘

Avantages : tout sur un VPS, ~25 €/mois total, données souveraines, conforme RGPD et IA Act.

Évolution selon la maturité

Démarrage (1-3 agents) : Postgres + pgvector sur VPS Hostinger. Coût : 25 €/mois.
Croissance (5-15 agents) : Ajout Redis pour cache et queue, scale Postgres. Coût : 50 €/mois.
Maturité (15+ agents, 50k+ docs) : Migration vers Qdrant dédié, Postgres en réplication. Coût : 100-200 €/mois.

7. Pièges et bonnes pratiques RAG

Piège 1 : Chunks trop grands ou trop petits

Si chaque chunk fait 5000 mots, vous récupérez trop de bruit (le LLM s'y perd). Si chaque chunk fait 50 mots, vous perdez le contexte. Sweet spot : 200 à 800 mots par chunk, avec un overlap de 50 à 100 mots entre chunks (pour éviter de couper au mauvais endroit).

Piège 2 : Pas de filtres métadonnées

Si vous avez 5000 documents indexés et que la question concerne juste les "FAQ produits", c'est gâché de chercher dans tout. Ajoutez des métadonnées à chaque chunk (catégorie, date, auteur, type) et filtrez avant la recherche vectorielle. Diminue drastiquement le bruit.

Piège 3 : Index pas mis à jour

Vos documents évoluent. Si un nouveau document arrive ou un ancien est modifié, le RAG renvoie de l'info obsolète. Mettez en place une routine de réindexation : trigger automatique sur ajout/modification dans votre source (Notion, Drive, etc.).

Piège 4 : Questions ambiguës mal traitées

Si la question est trop courte ou ambiguë ("Comment faire ?"), la recherche vectorielle ramène n'importe quoi. Bonne pratique : faire reformuler la question par le LLM avant la recherche ("Cette question manque de contexte. Reformule-la avec plus de détails ou demande des précisions").

Piège 5 : Pas de fallback si rien trouvé

Si la recherche vectorielle ne ramène rien de pertinent, l'agent doit le détecter et soit demander à l'humain, soit dire honnêtement "Je n'ai pas l'info dans ma base". Mieux que d'inventer une réponse hors contexte.

8. Quand utiliser quel type de mémoire

Cas	Court terme	Long terme	Vectorielle
Chatbot support court (1 session)	✓
Chatbot support persistant (multi-sessions)	✓	✓
Chatbot support avec base de connaissances	✓	✓	✓
Agent commercial (suivi prospects)	✓	✓
Agent analyste (recherche docs internes)	✓		✓
Agent RH (politiques internes + historique candidats)	✓	✓	✓
Agent simple Q&R sans persistance	✓

Règle d'or : commencez avec la mémoire la plus simple qui résout votre cas. Ajoutez des couches seulement quand le besoin est clair.

9. À retenir avant le chapitre suivant

3 types de mémoire complémentaires : court terme (contexte LLM), long terme (DB), vectorielle (RAG)
Mémoire court terme : suffit pour 60 % des cas, limitée à la session, gratuite
Mémoire long terme : Airtable pour démarrer, Postgres pour scale. Permet de se souvenir entre sessions.
Mémoire vectorielle (RAG) : pour interroger une base de documents. pgvector recommandé pour PME démarrant.
Coûts RAG PME : ~6 € initial + 6-21 €/mois pour 1000 documents
Architecture stack PME : Postgres + pgvector + n8n sur VPS Hostinger France = 25 €/mois
5 pièges RAG : chunks mal taillés, pas de filtres, index pas mis à jour, questions ambiguës, pas de fallback

Au chapitre 6, on attaque le sujet le plus important pour la production : les garde-fous et le Human-in-the-Loop. Comment garantir que votre agent reste sous contrôle, même quand il devient autonome.

Mémoire.
L'agent qui se souvient.

1. Pourquoi la mémoire est cruciale

2. Mémoire 1 : Court terme (contexte de conversation)

Comment ça marche techniquement

Quand c'est suffisant

Limites

3. Mémoire 2 : Long terme (base de données classique)

Comment ça marche

Exemples de mémoire long terme

Outils recommandés pour PME

4. Mémoire 3 : Vectorielle (RAG)

Le problème qu'elle résout

Comment ça marche techniquement

Outils de base vectorielle

Cas d'usage typiques RAG en PME

5. Coûts d'une mémoire vectorielle pour PME

6. Architecture mémoire recommandée pour PME

Évolution selon la maturité

7. Pièges et bonnes pratiques RAG

Piège 1 : Chunks trop grands ou trop petits

Piège 2 : Pas de filtres métadonnées

Piège 3 : Index pas mis à jour

Piège 4 : Questions ambiguës mal traitées

Piège 5 : Pas de fallback si rien trouvé

8. Quand utiliser quel type de mémoire

9. À retenir avant le chapitre suivant

Sur la mémoire.

Setup RAG complet en 1 semaine.

Mémoire. L'agent qui se souvient.

1. Pourquoi la mémoire est cruciale

2. Mémoire 1 : Court terme (contexte de conversation)

Comment ça marche techniquement

Quand c'est suffisant

Limites

3. Mémoire 2 : Long terme (base de données classique)

Comment ça marche

Exemples de mémoire long terme

Outils recommandés pour PME

4. Mémoire 3 : Vectorielle (RAG)

Le problème qu'elle résout

Comment ça marche techniquement

Outils de base vectorielle

Cas d'usage typiques RAG en PME

5. Coûts d'une mémoire vectorielle pour PME

6. Architecture mémoire recommandée pour PME

Évolution selon la maturité

7. Pièges et bonnes pratiques RAG

Piège 1 : Chunks trop grands ou trop petits

Piège 2 : Pas de filtres métadonnées

Piège 3 : Index pas mis à jour

Piège 4 : Questions ambiguës mal traitées

Piège 5 : Pas de fallback si rien trouvé

8. Quand utiliser quel type de mémoire

9. À retenir avant le chapitre suivant

Sur la mémoire.

Setup RAG complet en 1 semaine.

Mémoire.
L'agent qui se souvient.