Les spécificités d'un texte ou d'un corpus

Le programme SPECIF relève ce qui est spécifique dans le vocabulaire du texte qu'on lui soumet. Il a besoin de deux série de données. L'une est fournie par FRANTEXT: c'est la liste alphabétique des formes employées dans le texte, avec indication de la fréquence de chacune. L'autre est un fichier de référence auquel on compare la liste précédente. Quoique issu également de FRANTEXT, ce fichier est à demeure dans le présent dossier où il tient une place non négligeable (11 Mo). Il est conçu de telle façon qu'il permet de rapprocher les deux termes de la comparaison, et d'adapter le calcul à l'époque (4 siècles ont été distingués) et au genre (littéraire ou technique). En croisant ces deux variables, le fichier de référence permet de choisir parmi 13 combinaisons celle qui convient le mieux au texte considéré. On compare ainsi ce qui est comparable et ce qui relève du même état de langue et du même genre.

On s'adressera à FRANTEXT, en utilisant INTERNET, le réseau WEB, et l'outil de communication NETSCAPE. On suppose bien entendu que l'utilisateur a acquis le droit d'entrée qui donne accès à FRANTEXT. Les phases initiales de la procédure sont les mêmes que dans le programme Chrono, où on les trouvera détaillées.

1 - Solliciter par un clic le bouton Frantext, qui fait appel à NETSCAPE.

2 - Cliquer sur l'ancre FRANTEXT qui contient l'adresse réelle de la base. On est alors mis en liaison avec le serveur de FRANTEXT qui envoie une page d'accueil.

3 - Solliciter le bouton "ACTIVATION DE FRANTEXT" qui conduit au menu principal.

4 - Procéder d'abord à une "Sélection bibliographique" (3e ligne du menu), avant de retourner au menu principal. Prendre garde à choisir un corpus limité, par exemple un texte, un auteur, ou un ensemble de textes obéissant aux mêmes critères de date ou de genre. On doit prendre conscience que le nombre de formes (et donc de lignes dans le fichier résultat) peut atteindre la centaine de milliers, si le sous-corpus s'étend sur un siècle entier. Néanmoins FRANTEXT n'a pas prévu de limitations et il est possible de solliciter d'un coup tout le vocabulaire des Mémoires d'Outre-tombe ou de la Recherche du temps perdu. En une telle situation, il est préférable de disposer d'une liaison suffisamment rapide et sûre (un modem à 28800 bauds est alors conseillé, ou mieux encore un accès direct à Internet).

5 - Choisir l'item "Calculs des fréquences" (8e ligne)

6 - Choisir l'item 3 "Extraction du vocabulaire avec calcul de fréquences" (première ligne)

7 - Reste à remplir le formulaire ci-dessous, qui est fort simple si l'on sait que le critère de filtrage est le caractère %. Quand ce caractère précède une chaîne de caractères, il permet d'isoler un suffixe. Quand il suit cette chaîne, il sélectionne un préfixe ou un radical. Employé à chaque bout de la chaîne il provoque une troncature dans les deux sens et retient tous les mots qui contiennent la chaîne. Enfin, employé seul, il ne filtre plus rien du tout et laisse passer tous les mots. C'est l'option qui convient ici. Le tri par défaut (ordre alphabétique) convient aussi.

Terminer en activant le bouton EXTRACTION DU VOCABULAIRE.

8 - Quand le résultat est obtenu, une longue liste apparaît sur l'écran. Sauvegarder cette liste alphabétique, grâce à la fonction SAVE AS de NETSCAPE, en donnant au fichier le nom VOCDAT (dans la version PC, ce nom n'est pas obligatoire).

9 - On peut alors abandonner FRANTEXT et NETSCAPE et solliciter le bouton SPECIF de la base.

10 - Un dialogue est instauré qui propose un choix parmi les corpus de référence. Dans la version PC, on peut sélectionner la date de départ et celle d'arrivée dans le corpus littéraire de Frantext. La sélection fait en outre intervenir le genre dans la version Mac, qui propose le dialogue suivant:

Dans la version Mac, on est amené à préciser les limites basses pour la fréquence absolue et le seuil de l'écart réduit, afin de diminuer ou augmenter la masse ou la spécificité de la liste obtenue. Cela se fait automatiquement dans la version PC, eu égard à l'étendue du texte traité. Les résultats apparaissent sur l'écran au fil du traitement,

Sommaire

10 - Voici comment se présentent les résultats dans la version PC. Les mots spécifiques du texte considéré (il s'agit ici des Eaux Étroites de Julien Gracq) sont ordonnés par ordre de spécificité décroissante (c'est-à-dire en ordre décroissant des écarts réduits). Voir l'exemple ci-dessous.

Spécificités. Ordre hiérarchique (version PC)

En activant le bouton de tri ALPHA on peut faire apparaître l'ordre alphabétique (le bouton NUMER produit l'effet inverse). Dans les deux présentations, excédents et déficits sont juxtaposés.

Spécificités. ordre alphabétique (version PC)

La version MAC

Dans la version Mac, les résultats se présentent sous deux formes, soit alphabétique, soit hiérarchique, dans deux fichiers séparés qu'on peut visualiser en actionnant la fonction Editer.

Noter que le bouton Editer exige le maintien de la pression sur le bouton de la souris, afin de développer le menu Pop Up où sont proposés les fichiers à lire. Ceux qui sont issus du présent traitement ont pour nom: SPECIFALPHA et SPECIFTRIE. L'un et l'autre détaillent le vocabulaire négatif après le positif. Mais deux autres fichiers POSIT et NEGAT sont aussi générés où l'on peut observer les excédents et les déficits.

Voici un exemple de la liste alphabétique:

Spécificités positives fréquence > 5 écart réduit > 3 Corpus de référence : Littérature du XXe siècle



Texte       Corpus       Mot          Écart



  11           791       barque        20.3

   9           246       barrage       30.3

   9           174       berge         36.2

  12          8034       bout           5.5

 108        217788       dans           3.6

 556       1102892       de             8.6

   7          1272       domaine        9.8

 121        178385       du             7.4

  47         10002       eau           23.2

  24         24997       entre          5.1

  23         27906       fois           4.2

   8          5416       font           4.4

   6           633       glisse        12.3

   7          3835       guère          4.9

  14         17262       ici            3.2

  16          3262       image         13.9

   7          1813       jaune          8.0

 241        472803       l'             5.8

 368        677049       la             8.4

 247        567772       le             3.4

   7          6758       lieu           3.0

  12          7594       long           5.7

  10          9295       nom            3.7

   8          5825       oeil           4.2

   8          6375       ombre          3.9

  43         62942       où             4.4

   6          1593       paysage        7.3

Exemple correspondant de la liste hiérarchique:

Spécificités positives fréquence > 5 écart réduit > 3

Corpus de référence: Littérature du XX siècle



Texte Corpus  Mot          Écart  



  32    1770  rivière      39.8

   9     174  berge        36.2

   9     246  barrage      30.3

   6     151  rocs         25.8

  47   10002  eau          23.2

  11     791  barque       20.3

   6     434  roche        15.0

  16    3262  image        13.9

   9    1304  promenade    12.6

   6     633  glisse       12.3

   7    1272  domaine       9.8

 556 1102892  de            8.6

 368  677049  la            8.4

   7    1806  pont          8.0

Sommaire