Étienne Brunet, Université de Nice-Sophia
Antipolis
UPRESA Bases, corpus et langage
(Institut Nalional de la langue française,CNRS)
THIEF
(Tools for Helping Interrogation and Exploitation of Frantext)
Version 2 (Mac et Windows)
Reour au menu prinipal
Frantext
Avec près de 3000 textes de la littérature nationale, engrangés
méthodiquement depuis trente ans, Frantext n'a guère
d'équivalent dans les autres langues, ni pour l'étendue, ni
pour l'homogénéité des données, ni même
- cela est nouveau - pour leur accessibilité. Frantext est
certes disponible depuis des années à la communauté
scientifique et deux versions successives du logiciel d'exploitation ont
été mises en oeuvre sur les réseaux existants, principalement
Transpac. Mais l'interrogation de la base supposait un certain apprentissage
qui a rebuté plus d'un chercheur, au lieu que l'ergonomie de la "Toile"
(c'est le nom français qu'on donne désormais au WEB) est d'une
telle facilité (il suffit de "cliquer" les choix proposés)
et d'une telle généralité que l'obstacle technique
a disparu, même pour le chercheur le plus craintif. On peut s'en assurer
avec l'exemple de consultation donné ci-après (figure 1).
Figure 1. L'accueil de Frantext sur Internet, à l'adresse:
http://www.ciril.fr/~mastina/FRANTEXT
Figure 2. Sélection du corpus
Figure 3. Recherche d'une expression
Figure 4. Résultat de la requête
On a affaire dans cet exemple à une question simple: quels sont les
contextes où l'on trouve l'expression "langue populaire"?
Le langage d'interrogation (qui porte de nom de Stella et a été
réalisé par Jacques Dendien) permet des consultations plus
complexes et des réponses plus précises ou plus étendues.
On consultera le mode d'emploi disponible en ligne pour découvrir
et exploiter les ressources variées et puissantes ainsi offertes
à tous.
Sommaire
La statistique lexicale
La recherche de contextes est de loin la fonction la plus utile et la plus
sollicitée de Frantext. Nul besoin d'en faciliter ou d'en élargir
l'emploi. Certains utilisateurs souhaiteraient certes que la transmission
des textes s'ajoute à celle des contextes. Mais ce serait violer
les prescriptions du copyright qui permettent un maximum de 300 caractères
s'il s'agit d'un texte sous ayant droit et un maximum de 300 mots si le
texte appartient au domaine public. En revanche on n'a pas limité
le nombre des contextes restitués pour un mot donné (ou une
liste de mots). Dans la nouvelle version Internet toutefois leur
visualisation est fragmentée (par séries de 10) et il peut
être utile de recourir à l'ancienne version de Stella,
si l'on veut disposer d'un coup de tous les contextes en continu et les
inscrire dans un même fichier qu'on veut traiter à sa guise.
Dans un tel cas la précédente version du logiciel Thief
peut encore rendre des services.
Mais l'utilité de Frantext ne se réduit pas aux seules
opérations documentaires, si sophistiquées soient-elles. Les
fonctions statistiques qu'on y trouve ne le cèdent en rien pour la
puissance et la portée, et leur exploitation intensive et systématique
permet d'atteindre des résultats dont la conscience linguistique,
réduite à ses seuls moyens, serait incapable. Ce domaine statistique
est toutefois plus technique et moins familier aux populations littéraires
qui constituent la clientèle privilégiée de Frantext.
Et pour ne pas trop effrayer les néophytes, les fonctions statistiques
offertes par Frantext ont une simplicité voulue, qui s'arrête
aux pourcentages. Cela est suffisant pour donner une idée de la distribution
d'une forme parmi les époques, les écrivains, les textes ou
les genres, et ce qui vaut pour une forme peut s'étendre à
une constellation lexicale constituée librement autour d'un thème
ou d'une construction syntaxique.
Mais trop de simplicité peut conduire à l'erreur d'interprétation
et il est dangereux d'accorder une confiance illimitée aux effectifs
non pondérés ou aux méthodes trop frustes de pondération
que sont les pourcentages et les fréquences relatives. Pour tirer
pleinement profit du gisement, il a paru utile d'installer à la sortie
de Frantext une unité de transformation, qui puisse assurer le traitement
quantitatif des matériaux. C'est l'objet du présent logiciel
dont l'écran d'accueil (version Windows dans la figure 5 et version
Mac dans la figure 6) propose deux choix principaux, selon qu'on souhaite
être en liaison directe ou différée avec Frantext. Dans
le premier cas on activera les fonctions rangées verticalement sur
la droite de l'écran. Dans le second - que nous allons expliciter
d'abord - on ne s'intéressera qu'aux fonctions disponibles horizontalement
au haut de l'écran.
Figure 5. Écran d'accueil de la version Windows
Sommaire
Figure 6. Écran d'accueil de la version Mac
Sommaire
Retour au menu principal