Étienne Brunet, Université de Nice-Sophia Antipolis
UPRESA Bases, corpus et langage
(Institut Nalional de la langue française,CNRS)

THIEF

(Tools for Helping Interrogation and Exploitation of Frantext)
Version 2 (Mac et Windows)

Reour au menu prinipal



Frantext


Avec près de 3000 textes de la littérature nationale, engrangés méthodiquement depuis trente ans, Frantext n'a guère d'équivalent dans les autres langues, ni pour l'étendue, ni pour l'homogénéité des données, ni même - cela est nouveau - pour leur accessibilité. Frantext est certes disponible depuis des années à la communauté scientifique et deux versions successives du logiciel d'exploitation ont été mises en oeuvre sur les réseaux existants, principalement Transpac. Mais l'interrogation de la base supposait un certain apprentissage qui a rebuté plus d'un chercheur, au lieu que l'ergonomie de la "Toile" (c'est le nom français qu'on donne désormais au WEB) est d'une telle facilité (il suffit de "cliquer" les choix proposés) et d'une telle généralité que l'obstacle technique a disparu, même pour le chercheur le plus craintif. On peut s'en assurer avec l'exemple de consultation donné ci-après (figure 1).


Figure 1. L'accueil de Frantext sur Internet, à l'adresse:


http://www.ciril.fr/~mastina/FRANTEXT


Figure 2. Sélection du corpus





Figure 3. Recherche d'une expression


Figure 4. Résultat de la requête




On a affaire dans cet exemple à une question simple: quels sont les contextes où l'on trouve l'expression "langue populaire"? Le langage d'interrogation (qui porte de nom de Stella et a été réalisé par Jacques Dendien) permet des consultations plus complexes et des réponses plus précises ou plus étendues. On consultera le mode d'emploi disponible en ligne pour découvrir et exploiter les ressources variées et puissantes ainsi offertes à tous.

Sommaire



La statistique lexicale


La recherche de contextes est de loin la fonction la plus utile et la plus sollicitée de Frantext. Nul besoin d'en faciliter ou d'en élargir l'emploi. Certains utilisateurs souhaiteraient certes que la transmission des textes s'ajoute à celle des contextes. Mais ce serait violer les prescriptions du copyright qui permettent un maximum de 300 caractères s'il s'agit d'un texte sous ayant droit et un maximum de 300 mots si le texte appartient au domaine public. En revanche on n'a pas limité le nombre des contextes restitués pour un mot donné (ou une liste de mots). Dans la nouvelle version Internet toutefois leur visualisation est fragmentée (par séries de 10) et il peut être utile de recourir à l'ancienne version de Stella, si l'on veut disposer d'un coup de tous les contextes en continu et les inscrire dans un même fichier qu'on veut traiter à sa guise. Dans un tel cas la précédente version du logiciel Thief peut encore rendre des services.

Mais l'utilité de Frantext ne se réduit pas aux seules opérations documentaires, si sophistiquées soient-elles. Les fonctions statistiques qu'on y trouve ne le cèdent en rien pour la puissance et la portée, et leur exploitation intensive et systématique permet d'atteindre des résultats dont la conscience linguistique, réduite à ses seuls moyens, serait incapable. Ce domaine statistique est toutefois plus technique et moins familier aux populations littéraires qui constituent la clientèle privilégiée de Frantext. Et pour ne pas trop effrayer les néophytes, les fonctions statistiques offertes par Frantext ont une simplicité voulue, qui s'arrête aux pourcentages. Cela est suffisant pour donner une idée de la distribution d'une forme parmi les époques, les écrivains, les textes ou les genres, et ce qui vaut pour une forme peut s'étendre à une constellation lexicale constituée librement autour d'un thème ou d'une construction syntaxique.

Mais trop de simplicité peut conduire à l'erreur d'interprétation et il est dangereux d'accorder une confiance illimitée aux effectifs non pondérés ou aux méthodes trop frustes de pondération que sont les pourcentages et les fréquences relatives. Pour tirer pleinement profit du gisement, il a paru utile d'installer à la sortie de Frantext une unité de transformation, qui puisse assurer le traitement quantitatif des matériaux. C'est l'objet du présent logiciel dont l'écran d'accueil (version Windows dans la figure 5 et version Mac dans la figure 6) propose deux choix principaux, selon qu'on souhaite être en liaison directe ou différée avec Frantext. Dans le premier cas on activera les fonctions rangées verticalement sur la droite de l'écran. Dans le second - que nous allons expliciter d'abord - on ne s'intéressera qu'aux fonctions disponibles horizontalement au haut de l'écran.

Figure 5. Écran d'accueil de la version Windows



Sommaire


Figure 6. Écran d'accueil de la version Mac



Sommaire
Retour au menu principal