Sommaire

L'environnement d'un mot ou d'une liste de mots


Le programme SPECIF qui calcule les spécificités d'un vocabulaire est utilisé ici dans une situation particulière, où l'on examine quels ont les unités lexicales qui accompagnent dans la phrase un mot choisi pour pôle (ou une liste de mots). Ici aussi on a besoin de deux séries de données. L'une est fournie par FRANTEXT: c'est la liste alphabétique des formes relevées dans l'entourage immédiat du mot pôle, avec indication de la fréquence de chacune. L'autre est un fichier de référence auquel on compare la liste précédente. Quoique issu également de FRANTEXT, ce fichier est à demeure dans le présent dossier où il tient une place non négligeable (11 Mo dans la version Mac, 3 Mo dans la version PC). Dans la version Mac il est conçu de telle façon qu'il permet de rapprocher les deux termes de la comparaison, et d'adapter le calcul à l'époque (4 siècles ont été distingués) et au genre, (littéraire ou technique) . En croisant ces deux variables, le fichier de référence permet de choisir parmi 13 combinaisons celle qui convient le mieux au texte considéré. On compare ainsi ce qui est comparable et ce qui relève du même état de langue. Dans la version PC, qui n'envisage que les textes littéraires, le genre est aboli, mais le critère chronologique est plus fin (12 périodes disponibles)

On s'adressera à FRANTEXT, en utilisant INTERNET, le réseau WEB, et l'outil de communication NETSCAPE. On suppose bien entendu que l'utilisateur a acquis le droit d'entrée qui donne accès à FRANTEXT. Les étapes initiales sont les mêmes que pour la fonction Chrono.

1 - Solliciter par un clic le bouton Frantext, qui fait appel à NETSCAPE.

2 - Cliquer sur l'ancre FRANTEXT qui contient l'adresse réelle de la base. On est alors mis en liaison avec le serveur de FRANTEXT qui envoie une page d'accueil.

3 - Solliciter le bouton "ACTIVATION DE FRANTEXT" qui conduit au menu principal.

4 - Procéder d'abord à une "Sélection bibliographique" (3e ligne du menu), avant de retourner au menu principal. Si le mot choisi pour pôle est fréquent, et à plus forte raison si la liste comprend des mots fréquents, on prendra garde à choisir un corpus limité, par exemple un texte, un auteur, ou un ensemble de textes obéissant aux mêmes critères de date ou de genre. On doit prendre conscience que le nombre de formes (et donc de lignes dans le fichier résultat) peut atteindre des proportions dangereuses, si le sous-corpus s'étend sur une longue distance. Néanmoins FRANTEXT n'a pas prévu de limitations et il est possible de solliciter d'un coup l'environnement du mot amour ou du mot argent chez Balzac (ce n'est pas le même entourage). En une telle situation, il est préférable de disposer d'une liaison suffisamment rapide et sûre (un modem à 28800 bauds est alors conseillé, ou mieux encore un accès direct à Internet).

5 - Choisir l'item "Etude du vocabulaire au voisinage d'un mot" (dernière ligne)

 

6 - FRANTEXT propose alors un formulaire assez complexe, qu'on remplira convenablement.

Si l'on s'intéresse à une forme unique, on l'inscrira dans la case 1. Si la recherche porte sur une liste de mots, le nom de cette liste est à porter dans la case 2. On peut se contenter de ce seul argument et accepter les options par défaut qui règlent les autres paramètres. La fenêtre explorée dans le texte est alors la phrase. On peut élargir cette phrase (dans le Cas 1) en ajoutant jusqu'à 3 phrases à droite et autant à gauche (la symétrie n'est pas obligatoire).

Si l'on préfère l'unité du mot à celle de la phrase, les mêmes ajustements sont disponibles dans le Cas 2, à condition de ne pas dépasserla limite des 300 mots.

Terminer en activant le bouton ETUDE DU VOISINAGE.



 

7 - Quand le résultat est obtenu, apparaît sur l'écran une longue liste dont le début se présente ainsi quand on explore le corpus Hugo pour y délimiter la zone d'ombre :

 

Sauvegarder cette liste alphabétique, grâce à la fonction SAVE AS de NETSCAPE, en donnant au fichier le nom POLEDAT (un autre nom est possible dans la version PC).

9 - Quitter alors FRANTEXT et NETSCAPE et retourner à la base en y sollicitant le bouton SPECIF.

10 - Un dialogue est instauré qui propose un choix parmi les corpus de référence. Dans la version PC, on peut sélectionner la date de départ et celle d'arrivée dans le corpus littéraire de Frantext. La sélection fait en outre intervenir le genre dans la version Mac, qui propose le dialogue suivant:

 



Mais on prendra garde surtout à choisir l'option 2 qui différencie le traitement du précédent (spéficités d'un texte), même si on est invité pareillement à préciser les limites basses pour la fréquence absolue et le seuil de l'écart réduit, afin de diminuer ou augmenter la masse ou la spécificité de la liste obtenue. Comme les fréquences sont rarement importantes (d'autant que les mots grammaticaux sont exclus de la liste), on fixera plus bas que précédemment la barre de la fréquence absolue (par exemple à 10 ou moins), le seuil pour l'écart réduit restant pour sa part toujours au-delà de 2 en valeur absolue, pour ne laisser que 5% des chances au hasard.

Ces limites sont automatiquement calculées dans la version PC, eu égard à l'étendue du texte traité.

Les résultats apparaissent sur l'écran au fil du traitement.
Sommaire

10 - Résultats dans la version PC.


Les mots spécifiques du mot considéré (il s'agit ici du mot Espagne dans les romans français depuis 1900) sont ordonnés par ordre de spécificité décroissante (c'est-à-dire en ordre décroissant des écarts réduits). Voir l'exemple ci-dessous.

Spécificités. Ordre hiérarchique (version PC)



Spécificités. Ordre alphabétique dans la version PC. (Les boutonsALPHA et NUMER font alternativement apparaître les deux présentations).


11 - Résultats de la version APPLE


Comme dans la version PC, les résultats du programme Apple se présentent sous deux formes, soit alphabétique, soit hiérarchique. Mais il s'agit de fichiers séparés qu'on peut visualiser en actionnant la fonction Editer.

Noter que le bouton Editer exige le maintien de la pression ,sur le bouton

de la souris, afin de développer le menu Pop Up où sont propsés les fichiers à lire. Ceux qui sont issus du présent traitement ont pour nom: SPECIFALPHA et SPECIFTRIE.



L'un et l'autre détaillent le vocabulaire négatif après le positif. Mais deux autres fichiers POSIT et NEGAT sont aussi générés où l'on observe les excédents et les déficits.

Voici un exemple de la liste alphabétique (le mot proposé est le mot ombre chez Hugo:




Spécificités positives     

fréquence    >   10      

écart réduit >    2

Corpus de référence :    

Littérature du XIXe siècle


 

  Hugo   XIXe                    écart

    40   2021  abîme              20.0

    16   3196  âmes                4.6

    14   3092  ange                3.9

    14   1454  anges               7.4

    11    774  âpre                8.6

    17   2436  arbre               6.4

    30   4800  arbres              7.8

    14   3727  assis               3.1

    21    900  astre              15.9

    24    723  astres             20.8

    27   1150  aube               18.1

    15   2388  auguste             5.5

    20   1688  aurore             10.3

    38   9466  autour              5.6

    33   1428  azur               19.9

    61  14037  bas                 7.8

    13    583  blême              12.2

    17   3376  bleu                4.8

    49   9831  bois                8.1

La liste hiérarchique (ci-dessous) révèle que les liens que l'ombre tisse avec ce qui l'entoure sont de nature sémantique le plus souvent mais que la versification ou la syntaxe peuvent aussi jouer leur rôle. C'est le vers qui évidemment rapproche le nombre de l'ombre, mais à l'occasion plusieurs de ces facteurs peuvent se cumuler, comme dans le cas de sombre, qui forme avec l'ombre la rime la plus fréquente chez Hugo (l'ombre étant aussi le substantif le plus significatif et sombre l'adjectif le plus spécifique).


Spécificités positives

fréquence    >   10   écart réduit >    2

Corpus de référence :  Littérature du XIXe siècle



  Hugo   XIXe                    écart



  2208   8493  ombre             583.7

   163   4536  sombre             56.6

    38    930  gouffre            29.3

    29    894  obscure            22.6

    24    723  astres             20.8

    64   4470  nombre             20.7

    28   1003  monts              20.4

    40   2021  abîme              20.0

    33   1428  azur               19.9

    38   1856  clarté             19.9

   120  14922  fond               19.1

    39   2252  cieux              18.2

    27   1150  aube               18.1

    69   6601  noir               17.5

    46   3306  noirs              17.3

    24   1074  sinistre           16.6

    22    967  onde               16.1

    21    900  astre              15.9

    24   1156  obscur             15.9

    16    549  firmament          15.8

    15    511  soleils            15.3

    23   1186  morne              15.0

    32   2193  infini             14.8

    97  14569  ciel               14.8

    20    997  invisible          14.2

    11    338  prunelle           13.9

    58   7035  front              13.5

    16    735  hideux             13.4

    15    690  profonds           12.9

    13    583  blême              12.2

    32   2978  horreur            12.1

    22   1601  mystérieux         11.8

    13    617  chênes             11.8

    15    809  cendre             11.8

    13    638  profondeurs        11.6

Sommaire