Retour au sommaire

SPÉCIFICITÉS

1 - Si les conditions d'une comparaison justifiée sont remplies (le logiciel détecte par lui-même si le texte est en français), la spécificité du corpus est détaillée (par rapport au TLF) lorsque le bouton SPÉCIFICITÉS est activé. Apparaît d'abord un premier dialogue qui demande de choisir entre spécificités internes (opposant les textes d'un même corpus), et les spécificités externes (par référence au TLF ou à telle ou telle période du TLF, du 16ème siècle à l'époque contemporaine). Dans ce dernier cas on a le choix entre une présentation alphabétique ou hiérarchique (par valeurs décroissantes de l'écart réduit).

L'écran montre alors deux champs dont l'un à gauche livre les formes en excédent et l'autre à droite les formes déficitaires. On peut demander au programme (bouton CHERCHER) de vérifier si un mot figure parmi le vocabulaire spécifique, positif ou négatif. Les deux listes sont triées d'après la valeur absolue de l'écart réduit, de façon à mettre en relief ce qui est le plus significatif, dans un sens ou dans l'autre, comme on peut s'en rendre compte dans l'exemple ci-dessous:

Spécificité de Gracq par rapport au TLF (extrait très partiel)

Comme les listes dépassent généralement les possibilités de l'écran, le bouton EDITER permet de les restituer sur l'imprimante dans leur intégralité. Rappelons que le seuil significatif généralement admis est aux alentours de la valeur 2 (en laissant 5 chances sur 100 au hasard). Nous nous sommes arrêté à la valeur 3 en adoptant un seuil plus sévère. Au reste la comparaison avec l'usage observé dans le Trésor de la langue française doit être interprétée prudemment. D'une part le TLF reflète l'usage littéraire de la langue, dans un registre relevé, et si le corpus qu'on traite se trouve éloigné de ce niveau de langue, la valeur de la comparaison en est amoindrie. D'autre part toutes les formes n'ont pas été soumises à la comparaison, parce que le calcul de l'écart réduit perd de sa légitimité quand la fréquence théorique est trop faible, ce qui dépend certes de la taille du corpus traité, mais aussi de la fréquence du mot en question. Le fichier MODELE.txt qui sert de référence est largement dimensionné puisqu'il rend compte de 100 000 formes distinctes, chacune étant dotée de 12 sous-fréquences, du XIVe siècle au XXe. Cela permet, en fixant le point de départ et le point d'arrivée, de rapprocher les deux corpus comparés et de justifier leur confrontation. Mais il peut se faire que des mots soient très significatifs d'un corpus donné, même s'ils ne figurent pas dans la liste des 100000, soit parce qu'ils sont trop récents, soit parce qu'ils sont trop techniques.

2 - En outre, quand le corpus comporte une segmentation en textes ou parties (cette segmentation de toute façon est introduite si elle ne figure pas expressément dans les données), le programme d'indexation calcule le vocabulaire spécifique de chaque texte du corpus en se fondant sur la loi normale et en prenant pour norme l'ensemble du corpus (sans procéder au calcul pour les mots de basse fréquence et en ne retenant que les écarts réduits supérieurs à 2 en valeur absolue). Dans ce cas, pour chaque texte on peut faire apparaître la colonne des excédents et celle des déficits (bouton SPECIFICITE du menu principal). Ci-dessous un extrait des spécifités du Tiers Livre, où l'on devine sans peine les préoccupations de Panurge à l'endroit des femmes.

Le vocabulaire spécifique du Tiers Livre de Rabelais

On peut enfin consulter les listes de spécificités à propos d'une forme particulière. On dessine alors le profil du mot parmi les sous-ensembles, si du moins l'emploi de ce mot est suffisamment caractéristique pour franchir le seuil significatif dans au moins un des textes du corpus. Pour cette recherche (ici le mot femme) on pressera le bouton CHERCHE dont l'effet peut s'observer comme suit (le même effet est obtenu si on clique sur un mot de l'écran:

Retour au sommaire