Le système de RAG de Deeplink cherche, extrait et utilise des fragments de texte pertinents pour répondre à des questions. La qualité et la structuration du contenu source déterminent directement la pertinence des réponses générées.
Règle d’or : cherchez à écrire chaque paragraphe pour qu’il soit compréhensible tout seul, qu’il soit clair et précis. Évitez les formulations vagues afin que chaque extrait reste pertinent une fois isolé en RAG.
1. Structurer le contenu pour une récupération efficace
- Titres clairs et hiérarchisés (H1, H2, H3) pour permettre un découpage précis.
- Paragraphes courts (3–5 phrases max) pour faciliter la segmentation en chunks.
- Listes à puces pour isoler les points clés.
- Mots-clés pertinents dans les titres et débuts de paragraphes.
2. Écrire de façon explicite et autonome
- Chaque section doit pouvoir être comprise hors contexte.
- Ne pas hésiter à reformuler les notions importantes plutôt que d’y faire référence indirectement.
- Privilégier des phrases affirmatives et complètes.
3. Favoriser la précision et la désambiguïsation
- Éviter les formulations vagues (“quelques”, “certains”, “important”) sans quantification.
- Fournir chiffres, dates, définitions dès que possible.
- Ne pas hésiter à clarifier des termes techniques ou spécifiques. Rajouter une brève définition peut grandement aider l’IA, même après le paragraphe concerné.
4. Optimiser la recherche par mots-clés & résumé
- Répéter naturellement les termes-clés et synonymes pertinents.
- Utiliser des variantes lexicales pour maximiser la couverture sémantique.
- Nommer explicitement entités, lieux, produits, concepts au lieu d’utiliser des abréviations non expliquées.
- Pour des documents longs, il peut être utile d’ajouter un résumé ou abstract de ce dernier dès les premières lignes.
5. Garantir la qualité de l’information
- Vérifier l’exactitude et la mise à jour des données.
- Citer les sources lorsque c’est pertinent.
- Éviter les contradictions internes qui pourraient perturber l’indexation.
6. Pièges à éviter
- Éviter d’imbriquer de longues listes à l’intérieur d’autres listes
- Éviter de référencer d’autres parties d’un document (légal) via le numero de chapitre (cf. art. 2.3), l’IA ne les comprends pas. Il est préférable de renommer (avec un titre textuel) ou supprimer ces références.
- Si des tableaux contiennent des informations importantes, il est recommandé de transformer chaque ligne / case en une phrase distincte.
En suivant ces bonnes pratiques, vous assurez une structuration optimale de vos documents et une utilisation plus performante de l’IA. Ce document de bonne pratique a été conçu pour vous aider à être plus autonome dans la création, l’import et la gestion de votre contenu, garantissant ainsi des résultats toujours plus pertinents.

