> For the complete documentation index, see [llms.txt](https://documentation.iologo.io/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://documentation.iologo.io/documentation/structuration-et-enrichissement-du-corpus-iologo.md). # Structuration et enrichissement du corpus iologo ### Introduction et contexte Dans le cadre d’un projet de structuration et d’enrichissement du corpus iologo, votre participation est sollicitée en tant qu’utilisateurs et utilisatrices de la plateforme et pour votre expertise du langage. Les textes actuellement présents dans la base de données sont classés par niveau. Toutefois, afin de pouvoir enrichir cette base avec de nouveaux contenus, il est nécessaire de mieux comprendre la progression qui caractérise ces niveaux selon plusieurs dimensions linguistiques. L’annotation n’a donc pas pour objectif de reclasser les textes, mais de vérifier si les niveaux attribués correspondent à des différences linguistiques perceptibles. Cette étape permet d'abord de vérifier la cohérence des niveaux existants et, le cas échéant, de nettoyer et réorganiser le corpus. Elle permet également de tester la pertinence du modèle de critères linguistiques élaboré dans le cadre de ce projet, en vue de la création de nouveaux textes respectant les contraintes associées à chaque niveau. L’objectif est de pouvoir formaliser des règles pour l’automatisation, par exemple “un texte comportant du subjonctif ne peut pas être classé dans le niveau 1”. Pour mener à bien ce travail, nous avons besoin de vous pour estimer le niveau de chaque texte proposé, en vous appuyant sur un ensemble de caractéristiques linguistiques définies dans le cadre du projet. Une session d’échanges collectifs sera organisée dans un second temps. Dans le cas de désaccords, nous discuterons des choix effectués, des difficultés rencontrées et des points d’hésitation. Il ne s’agit pas d’identifier des réponses correctes ou incorrectes : ces échanges ont pour objectif de confronter les points de vue et d’affiner l’interprétation des critères afin d’éclairer la progression des niveaux. ### Terminologie * Corpus dictée : une série de textes conçue pour les exercices de copie différée, de dictée et dictée manuscrite. * Corpus oral : une série de textes conçue pour l'oral et pour la lecture sur livre ou à l’écran. ### Interface d'annotation L’annotation se fera sur un formulaire en ligne. Pour chaque texte, les informations suivantes seront données : * le corpus d’origine : dictée ou oral, * le nombre de mots du texte, * le nombre de mots médian par phrase, * les temps verbaux : attention, l’outil employé ne prend pas en compte les temps composés. La présence du participe passé peut indiquer un temps composé dans certains textes, * les pronoms relatifs, * le lexique fréquent : les thèmes souvent rencontrés, * le score SMOG : évalue la difficulté de lecture d'un texte. Un score de X correspond environ à X années de scolarité. Son calcul repose sur la fréquence des mots polysyllabiques dans un sous-ensemble de phrases du texte, permettant ainsi d'évaluer la charge cognitive du lexique utilisé. Par exemple : "4" correspond environ au niveau de fin de CE2, "10" à la seconde. * la densité lexicale, représentée par le CTTR (le ratio type-token). Plus le score est élevé, plus le vocabulaire est varié (peu de répétitions). * le texte complet : certains textes sont longs, ils sont fournis dans leur intégralité mais leur lecture complète n’est pas requise. A l’aide de ces informations et des critères proposés plus bas, nous vous proposons d’attribuer un niveau à chaque texte. Un espace commentaires est disponible si vous souhaitez signaler une difficulté, poser une question ou ajouter une précision. Il n'est pas attendu que vous justifiez systématiquement, les échanges en distanciel nous permettront d'échanger plus précisément.

### Critères d’annotation Les données chiffrées et linguistiques sont des repères issus de l'analyse statistique du corpus. Elles ne sont pas des règles strictes mais des indicateurs de tendance. Chaque corpus présente des critères qui lui sont propres et la pertinence des critère peut varier selon les genres textuels. #### Corpus dictée Le corpus dictée est classé du niveau 2 à 7, d’un texte très simple (principalement nominal, aux thèmes accessibles) à un texte narratif plus long et complexe.

#### Corpus oral Le corpus oral classe les textes du niveau 1 à 8.

Les critères peuvent entrer en conflit (par exemple, un texte court mais comportant un système verbal complexe). Dans ce cas, suivez votre expertise clinique. Vous pouvez préciser votre raisonnement dans l'espace commentaires ou lors de l’échange collectif. ### Exemple annoté Vous devrez sélectionner votre réponse dans un menu déroulant.

Choix du niveau

Dans ce cas, à la lumière des critères proposés l’annotatrice a évalué le texte comme étant un texte du niveau 1.

Elle a expliqué son choix dans la partie destinée aux commentaires. Cette étape est optionnelle.

### Révisions et mises à jour N’hésitez pas à me contacter () pour toute remarque ou question. Ce guide peut être amené à évoluer en fonction de vos retours. ####
--- # Agent Instructions This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com. ## Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter: ``` GET https://documentation.iologo.io/documentation/structuration-et-enrichissement-du-corpus-iologo.md?ask=&goal= ``` `ask` is the immediate question: it should be specific, self-contained, and written in natural language. `goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.