Sommaire
La répartition d'un mot ou d'un groupe de mots chez les écrivains
Le programme Auteur permet d'étudier la répartition
d'un mot ou d'une liste de mots parmi les écrivains (ou parmi les
textes).
On s'adressera à FRANTEXT, en utilisant INTERNET, le réseau
WEB, et l'outil de communication NETSCAPE. On suppose bien entendu que l'utilisateur
a acquis le droit d'entrée qui donne accès à FRANTEXT.
La procédure est la même que celle qu'on a utilisée
pour le programme Chrono, seul changeant le choix final de l'étape
7.
1 - Solliciter par un clic le bouton Frantext, qui fait appel à NETSCAPE.
2 - Cliquer sur l'ancre FRANTEXT qui contient l'adresse réelle de
la base. On est alors mis en liaison avec le serveur de FRANTEXT qui envoie
la page d'accueil habituelle.
3 - Solliciter le bouton "ACTIVATION DE FRANTEXT" qui conduit
au menu principal.
4 - Procéder d'abord à une "Sélection bibliographique"
(3e ligne du menu). Puis retourner au menu principal.
5 - Choisir l'item "Calculs des fréquences" (8e ligne)
6 - Choisir l'item 3 "Distribution des fréquences d'un mot ou
de chaque mot d'une liste" (3e ligne)
7 - Reste à remplir le formulaire ci-dessous. On mettra le mot cherché
dans la case 1 ou la liste de mots dans la case 2. Et on choisira les options
convenables, à savoir:
- Choix 1 (auteur par auteur)
- Tri par ordre alphabétique des auteurs
Terminer en activant le bouton EXECUTION.
8 - Quand le résultat est obtenu, le sauvegarder grâce à
la fonction SAVE AS de NETSCAPE, en choisissant le nom du fichier et le
bon emplacement (répertoire C:\THIEF\ dans la version PC, Dossier
THIEF dans la version Mac). Veiller à enregistrer le fichier en mode
TEXTE, plutôt qu'en mode SOURCE (ou format HTML). Cela est possible
avec Netscape version Mac, et aussi avec la version 3 de Netscape pour Windows.
Mais comme le mode SOURCE est le seul possible dans NETSCAPE 2 pour Windows,
on a prévu une traduction des données ainsi présentées.
Enregistrement sur Mac:
Si le mot est rare, ou que certains auteurs soient peu représentés
dans le corpus, il peut se faire que l'effectif étant nul dans une
division particulière, il n'en soit pas fait mention dans les résultats.
Le calcul prend donc pour base uniquement les auteurs (ou les textes) qui
contiennent au moins une fois le mot considéré. Les auteurs
qui ont délibérément ignoré le mot en question,
sont tenus à l'écart du vote et sont considérés
comme abstentionnistes. Ce cas ne se produit guère, si le mot est
fréquent ou s'il s'agit d'une liste de mots.
9 - Quand le fichier-résultat a été sauvegardé,
on peut abandonner FRANTEXT et NETSCAPE et solliciter le bouton auteur
de la base (Mac à gauche, PC à droite).
10 - Le résultat final est un histogramme qui apparaît d'abord
sur l'écran puis est transmis à l'imprimante, si on le désire.
Noter que la place est trop exiguë pour représenter la série
dans son intégralité. Dans certains cas c'est plus d'un millier
d'auteurs qui sollicitent chacun un "bâton" de l'histogramme.
Le programme permet de ne retenir que les plus importants, c'est à
dire les mieux représentés dans le corpus. Le seuil proposé
pour l'étendue est de 200 000 occurrences, mais l'utilisateur peut
déplacer ce seuil vers le haut ou le bas.
On trouvera ci-dessous deux exemples. Le premier, au format Windows, rend
compte de la distribution du mot ennui chez les romanciers depuis
1800. Le second, au format Mac, est relatif au mot langage.
Le mot ennui (version PC)
Le mot langage (version Mac)
11 - Si l'on préfère une autre présentation, solliciter
le bouton "excel" de la base, en précisant que les données
sont dans le fichier "REPARTITION" (version Mac) ou dans le fichier
AUTEUR.xl (version PC). Le contenu d'un tel fichier se présente comme
suit:
Là encore selon le seuil choisi la liste sera plus ou moins longue.
Mais EXCEL a tant de possibilités que les séries longues gardent
un minimum de lisibilité, si l'on choisit le type adéquat
de représentation graphique.
12 - Exemple de graphique obtenu avec Excel (extrait)
Sommaire