Construire une base de connaissance RAG performante
La qualité des réponses de votre chatbot dépend directement de la qualité de votre base de connaissance. Ce guide vous explique comment l'optimiser pour obtenir des réponses précises et pertinentes.
Comment fonctionne l'indexation (en clair)
Chatbot Flow utilise la technologie RAG — Retrieval-Augmented Generation. Voici ce qui se passe concrètement quand un visiteur pose une question :
Crawl automatique de votre site
Toutes les 24 heures, nos serveurs parcourent votre site via l'API REST WordPress. Seules les pages nouvelles ou modifiées depuis le dernier crawl sont retraitées — ce qui garantit une base toujours à jour sans surcharge.
Découpage sémantique du contenu
Chaque page est découpée en "chunks" sémantiques — des blocs de texte cohérents, ni trop grands ni trop petits. Cette étape est clé : un bon découpage permet au chatbot de retrouver exactement le bon passage pour répondre.
Vectorisation et stockage pgvector
Chaque chunk est transformé en vecteur numérique (embedding) et stocké dans votre base pgvector dédiée. Cette représentation mathématique permet de trouver les passages sémantiquement proches d'une question, même si les mots exacts ne correspondent pas.
Recherche hybride à la question
Quand un visiteur pose une question, le système combine recherche vectorielle (sémantique) et recherche textuelle (mots-clés) pour trouver les passages les plus pertinents, puis les transmet au modèle IA pour formuler une réponse.
Quelles pages indexer en priorité
Pas toutes les pages se valent pour le chatbot. Concentrez-vous en priorité sur les pages à haute valeur informative :
- Page FAQ — La ressource la plus précieuse. Chaque question/réponse est un chunk parfait pour le RAG. Si vous n'avez pas de FAQ, créez-en une.
- Pages produits et services — Descriptions détaillées, caractéristiques, cas d'usage, prix, délais... Plus votre description est complète, meilleures seront les réponses.
- Page "À propos" — Qui êtes-vous, où êtes-vous basé, depuis quand, quelle est votre mission ? Ces informations sont souvent demandées.
- Pages de tarification — Plans, prix, ce qui est inclus, ce qui ne l'est pas, politique de remboursement.
- Documentation et tutoriels — Pour les SaaS, la documentation technique est un corpus parfait pour le RAG.
- Blog et articles — Particulièrement pertinents si votre blog traite de sujets directement liés à vos produits/services.
Ajouter du contenu complémentaire : blocs texte libres
Certaines informations ne sont pas sur votre site public mais sont pourtant essentielles pour votre chatbot : politique de retour interne, réponses aux objections fréquentes, informations de livraison détaillées, contacts par département...
Les blocs texte libres vous permettent d'ajouter directement ce contenu dans votre back-office WordPress, sans l'avoir publié sur votre site. Ce contenu est indexé exactement comme vos pages web.
Exemples de blocs texte efficaces :
- "Notre délai de livraison standard est de 3-5 jours ouvrés en France. Les commandes passées avant 14h sont expédiées le jour même."
- "Pour les demandes de remboursement, contacter service@monsite.fr avec la référence de commande. Les remboursements sont traités sous 5 jours."
- "Nous proposons des démonstrations gratuites chaque mardi et jeudi à 14h. Inscription via le formulaire de contact."
Uploader des fichiers PDF
Vous avez des brochures commerciales, des fiches produits, des guides d'utilisation ou des catalogues en PDF ? Ils peuvent être indexés directement dans votre base de connaissance.
Depuis la section "Contenu RAG" de votre back-office WordPress, uploadez vos PDF directement. Ils sont envoyés à nos serveurs (jamais stockés dans votre médiathèque WordPress), convertis en texte, découpés sémantiquement et indexés comme n'importe quelle autre page.
Types de PDFs particulièrement utiles :
- Fiches produits détaillées (données techniques, dimensions, certifications)
- Guides d'installation ou d'utilisation
- Conditions générales de vente et de garantie
- Catalogues tarifaires
- Documents de présentation de l'entreprise
Exclure des pages inutiles ou sensibles
Toutes les pages de votre site ne méritent pas d'être dans la base de connaissance. Exclure les pages inutiles améliore la qualité des réponses en réduisant le bruit, et permet de rester sous la limite de pages indexées de votre plan.
Pages à exclure systématiquement
- Pages d'administration WordPress (
/wp-admin/) - Panier et checkout e-commerce
- Pages de compte utilisateur (
/mon-compte/) - Pages de connexion et d'inscription
- Archives de catégories et de tags peu informatives
- Pages de résultats de recherche
- Pages "Mentions légales" purement formulaires
- Pages en brouillon ou de test
Si vous approchez la limite de 1 000 pages (plan de base), l'exclusion des archives et taxonomies WordPress est souvent suffisante pour libérer plusieurs centaines d'entrées. L'option Volume (+5 €/mois) passe le plafond à 10 000 pages si votre site est très grand.
Optimiser le contenu de vos pages pour le chatbot
La qualité de votre contenu impacte directement la qualité des réponses. Voici les bonnes pratiques rédactionnelles pour un contenu RAG-friendly :
- Répondez explicitement aux questions. Au lieu de "Nos délais sont rapides", écrivez "Nos délais de livraison sont de 2 à 4 jours ouvrés en France métropolitaine."
- Utilisez des titres (H2/H3) clairs. Les titres aident au découpage sémantique. "Politique de retour" comme H2 aide le chatbot à retrouver cette section.
- Une idée par paragraphe. Les paragraphes courts et ciblés sont mieux découpés qu'un long bloc de texte dense.
- Créez une vraie FAQ. C'est le format le plus efficace pour le RAG. Chaque paire Q/R est un chunk parfait.
- Évitez les tournures vagues. "Nous proposons diverses options" ne peut pas être transformé en réponse utile. "Nous proposons 3 formules : Starter à 29€, Pro à 79€ et Enterprise sur devis" — oui.
- Mentionnez explicitement votre secteur, localisation, spécialité. Ces informations contextualiseront toutes les réponses.
Synchronisation manuelle vs automatique
Synchronisation automatique : Le crawl se déclenche une fois par 24 heures à une heure fixe assignée aléatoirement à votre compte lors de l'inscription (pour répartir la charge). Toutes les pages modifiées depuis le dernier crawl sont retraitées. Les nouvelles pages sont détectées et ajoutées automatiquement.
Synchronisation manuelle : Depuis votre dashboard WordPress, le bouton "Synchroniser maintenant" déclenche un crawl immédiat. Utile si vous venez de publier une page importante, de corriger une information ou d'ajouter du contenu complémentaire. La synchronisation manuelle ne remplace pas le cycle automatique — elle s'y ajoute.
Bon à savoir : Les blocs texte et les PDFs que vous ajoutez directement dans le back-office sont indexés immédiatement, sans attendre le prochain crawl. C'est la façon la plus rapide d'enrichir votre base de connaissance.
Prêt à lancer votre chatbot ?
Installez Chatbot Flow en 5 minutes. Le premier crawl de votre site démarre automatiquement. Essai 30 jours sans CB.