Sommaire
L'environnement d'un mot ou d'une liste de mots
Le programme SPECIF qui calcule les spécificités d'un vocabulaire
est utilisé ici dans une situation particulière, où
l'on examine quels ont les unités lexicales qui accompagnent dans
la phrase un mot choisi pour pôle (ou une liste de mots). Ici aussi
on a besoin de deux séries de données. L'une est fournie par
FRANTEXT: c'est la liste alphabétique des formes relevées
dans l'entourage immédiat du mot pôle, avec indication de la
fréquence de chacune. L'autre est un fichier de référence
auquel on compare la liste précédente. Quoique issu également
de FRANTEXT, ce fichier est à demeure dans le présent dossier
où il tient une place non négligeable (11 Mo dans la version
Mac, 3 Mo dans la version PC). Dans la version Mac il est conçu de
telle façon qu'il permet de rapprocher les deux termes de la comparaison,
et d'adapter le calcul à l'époque (4 siècles ont été
distingués) et au genre, (littéraire ou technique) . En croisant
ces deux variables, le fichier de référence permet de choisir
parmi 13 combinaisons celle qui convient le mieux au texte considéré.
On compare ainsi ce qui est comparable et ce qui relève du même
état de langue. Dans la version PC, qui n'envisage que les textes
littéraires, le genre est aboli, mais le critère chronologique
est plus fin (12 périodes disponibles)
On s'adressera à FRANTEXT, en utilisant INTERNET, le réseau
WEB, et l'outil de communication NETSCAPE. On suppose bien entendu que l'utilisateur
a acquis le droit d'entrée qui donne accès à FRANTEXT.
Les étapes initiales sont les mêmes que pour la fonction Chrono.
1 - Solliciter par un clic le bouton Frantext, qui fait appel à NETSCAPE.
2 - Cliquer sur l'ancre FRANTEXT qui contient l'adresse réelle de
la base. On est alors mis en liaison avec le serveur de FRANTEXT qui envoie
une page d'accueil.
3 - Solliciter le bouton "ACTIVATION DE FRANTEXT" qui conduit
au menu principal.
4 - Procéder d'abord à une "Sélection bibliographique"
(3e ligne du menu), avant de retourner au menu principal. Si le mot choisi
pour pôle est fréquent, et à plus forte raison si la
liste comprend des mots fréquents, on prendra garde à choisir
un corpus limité, par exemple un texte, un auteur, ou un ensemble
de textes obéissant aux mêmes critères de date ou de
genre. On doit prendre conscience que le nombre de formes (et donc de lignes
dans le fichier résultat) peut atteindre des proportions dangereuses,
si le sous-corpus s'étend sur une longue distance. Néanmoins
FRANTEXT n'a pas prévu de limitations et il est possible de solliciter
d'un coup l'environnement du mot amour ou du mot argent chez Balzac (ce
n'est pas le même entourage). En une telle situation, il est préférable
de disposer d'une liaison suffisamment rapide et sûre (un modem à
28800 bauds est alors conseillé, ou mieux encore un accès
direct à Internet).
5 - Choisir l'item "Etude du vocabulaire au voisinage d'un mot"
(dernière ligne)
6 - FRANTEXT propose alors un formulaire assez complexe, qu'on remplira
convenablement.
Si l'on s'intéresse à une forme unique, on l'inscrira dans
la case 1. Si la recherche porte sur une liste de mots, le nom de cette
liste est à porter dans la case 2. On peut se contenter de ce seul
argument et accepter les options par défaut qui règlent les
autres paramètres. La fenêtre explorée dans le texte
est alors la phrase. On peut élargir cette phrase (dans le Cas 1)
en ajoutant jusqu'à 3 phrases à droite et autant à
gauche (la symétrie n'est pas obligatoire).
Si l'on préfère l'unité du mot à celle de la
phrase, les mêmes ajustements sont disponibles dans le Cas 2, à
condition de ne pas dépasserla limite des 300 mots.
Terminer en activant le bouton ETUDE DU VOISINAGE.
7 - Quand le résultat est obtenu, apparaît sur l'écran
une longue liste dont le début se présente ainsi quand on
explore le corpus Hugo pour y délimiter la zone d'ombre :
Sauvegarder cette liste alphabétique, grâce à la fonction
SAVE AS de NETSCAPE, en donnant au fichier le nom POLEDAT (un autre nom
est possible dans la version PC).
9 - Quitter alors FRANTEXT et NETSCAPE et retourner à la base en
y sollicitant le bouton SPECIF.
10 - Un dialogue est instauré qui propose un choix parmi les corpus
de référence. Dans la version PC, on peut sélectionner
la date de départ et celle d'arrivée dans le corpus littéraire
de Frantext. La sélection fait en outre intervenir le genre dans
la version Mac, qui propose le dialogue suivant:
Mais on prendra garde surtout à choisir l'option 2 qui différencie
le traitement du précédent (spéficités d'un
texte), même si on est invité pareillement à préciser
les limites basses pour la fréquence absolue et le seuil de l'écart
réduit, afin de diminuer ou augmenter la masse ou la spécificité
de la liste obtenue. Comme les fréquences sont rarement importantes
(d'autant que les mots grammaticaux sont exclus de la liste), on fixera
plus bas que précédemment la barre de la fréquence
absolue (par exemple à 10 ou moins), le seuil pour l'écart
réduit restant pour sa part toujours au-delà de 2 en valeur
absolue, pour ne laisser que 5% des chances au hasard.
Ces limites sont automatiquement calculées dans la version PC, eu
égard à l'étendue du texte traité.
Les résultats apparaissent sur l'écran au fil du traitement.
Sommaire
10 - Résultats dans la version PC.
Les mots spécifiques du mot considéré (il s'agit ici
du mot Espagne dans les romans français depuis 1900) sont
ordonnés par ordre de spécificité décroissante
(c'est-à-dire en ordre décroissant des écarts réduits).
Voir l'exemple ci-dessous.
Spécificités. Ordre hiérarchique (version PC)
Spécificités. Ordre alphabétique dans la version PC.
(Les boutonsALPHA et NUMER font alternativement apparaître les deux
présentations).
11 - Résultats de la version APPLE
Comme dans la version PC, les résultats du programme Apple se présentent
sous deux formes, soit alphabétique, soit hiérarchique. Mais
il s'agit de fichiers séparés qu'on peut visualiser en actionnant
la fonction Editer.
Noter que le bouton Editer exige le maintien de la pression ,sur le bouton
de la souris, afin de développer le menu Pop Up où sont propsés
les fichiers à lire. Ceux qui sont issus du présent traitement
ont pour nom: SPECIFALPHA et SPECIFTRIE.
L'un et l'autre détaillent le vocabulaire négatif après
le positif. Mais deux autres fichiers POSIT et NEGAT sont aussi générés
où l'on observe les excédents et les déficits.
Voici un exemple de la liste alphabétique (le mot proposé
est le mot ombre chez Hugo:
Spécificités positives
fréquence > 10
écart réduit > 2
Corpus de référence :
Littérature du XIXe siècle
Hugo XIXe écart
40 2021 abîme 20.0
16 3196 âmes 4.6
14 3092 ange 3.9
14 1454 anges 7.4
11 774 âpre 8.6
17 2436 arbre 6.4
30 4800 arbres 7.8
14 3727 assis 3.1
21 900 astre 15.9
24 723 astres 20.8
27 1150 aube 18.1
15 2388 auguste 5.5
20 1688 aurore 10.3
38 9466 autour 5.6
33 1428 azur 19.9
61 14037 bas 7.8
13 583 blême 12.2
17 3376 bleu 4.8
49 9831 bois 8.1
La liste hiérarchique (ci-dessous) révèle que les liens
que l'ombre tisse avec ce qui l'entoure sont de nature sémantique
le plus souvent mais que la versification ou la syntaxe peuvent aussi jouer
leur rôle. C'est le vers qui évidemment rapproche le nombre
de l'ombre, mais à l'occasion plusieurs de ces facteurs peuvent se
cumuler, comme dans le cas de sombre, qui forme avec l'ombre la rime la
plus fréquente chez Hugo (l'ombre étant aussi le substantif
le plus significatif et sombre l'adjectif le plus spécifique).
Spécificités positives
fréquence > 10 écart réduit > 2
Corpus de référence : Littérature du XIXe siècle
Hugo XIXe écart
2208 8493 ombre 583.7
163 4536 sombre 56.6
38 930 gouffre 29.3
29 894 obscure 22.6
24 723 astres 20.8
64 4470 nombre 20.7
28 1003 monts 20.4
40 2021 abîme 20.0
33 1428 azur 19.9
38 1856 clarté 19.9
120 14922 fond 19.1
39 2252 cieux 18.2
27 1150 aube 18.1
69 6601 noir 17.5
46 3306 noirs 17.3
24 1074 sinistre 16.6
22 967 onde 16.1
21 900 astre 15.9
24 1156 obscur 15.9
16 549 firmament 15.8
15 511 soleils 15.3
23 1186 morne 15.0
32 2193 infini 14.8
97 14569 ciel 14.8
20 997 invisible 14.2
11 338 prunelle 13.9
58 7035 front 13.5
16 735 hideux 13.4
15 690 profonds 12.9
13 583 blême 12.2
32 2978 horreur 12.1
22 1601 mystérieux 11.8
13 617 chênes 11.8
15 809 cendre 11.8
13 638 profondeurs 11.6
Sommaire