Le Chunk ou Fragment d’information
Dans l’architecture de génération augmentée par récupération (RAG) utilisée par les moteurs de recherche IA (comme Google AI Overviews), un chunk est un segment de texte autonome extrait d’un document ou d’une page web.
-
Fonction : Les modèles de langage (LLM) ne traitent pas efficacement des pages web entières de plusieurs milliers de mots en une fois pour répondre à une requête précise. Le système extrait donc uniquement les blocs de texte (souvent de 100 à 300 mots) contenant la donnée exacte recherchée.
-
Enjeu GEO/AEO : L’unité de classement n’est plus la page web globale ou l’URL, mais le chunk. C’est ce fragment précis qui est vectorisé, stocké dans une base de données vectorielle, puis injecté dans le contexte du LLM pour être synthétisé et cité.
Le Chunking (Le procédé de segmentation)
Le chunking désigne l’opération de découpage d’un texte continu en unités distinctes (chunks). La méthode de découpage détermine la capacité de l’IA à comprendre le contenu :
-
Chunking structurel et sémantique : Le moteur s’appuie sur l’organisation de la page (balises HTML
<h2>,<h3>, listes à puces, paragraphes) pour rompre le texte sans briser le fil logique. -
Optimisation pour le créateur de contenu : Pour maximiser les chances d’intégration dans les réponses IA, le contenu doit être rédigé de façon modulaire : Chaque paragraphe ou section doit posséder une autonomie sémantique complète (contenir le sujet, l’entité et la réponse ou la donnée factuelle brute) pour que le chunking automatique de Google n’isole pas une phrase de son contexte d’origine.