Sommaire

La répartition d'un mot ou d'un groupe de mots chez les écrivains


Le programme Auteur permet d'étudier la répartition d'un mot ou d'une liste de mots parmi les écrivains (ou parmi les textes).

On s'adressera à FRANTEXT, en utilisant INTERNET, le réseau WEB, et l'outil de communication NETSCAPE. On suppose bien entendu que l'utilisateur a acquis le droit d'entrée qui donne accès à FRANTEXT. La procédure est la même que celle qu'on a utilisée pour le programme Chrono, seul changeant le choix final de l'étape 7.

1 - Solliciter par un clic le bouton Frantext, qui fait appel à NETSCAPE.

2 - Cliquer sur l'ancre FRANTEXT qui contient l'adresse réelle de la base. On est alors mis en liaison avec le serveur de FRANTEXT qui envoie la page d'accueil habituelle.

3 - Solliciter le bouton "ACTIVATION DE FRANTEXT" qui conduit au menu principal.

4 - Procéder d'abord à une "Sélection bibliographique" (3e ligne du menu). Puis retourner au menu principal.

5 - Choisir l'item "Calculs des fréquences" (8e ligne)

6 - Choisir l'item 3 "Distribution des fréquences d'un mot ou de chaque mot d'une liste" (3e ligne)



7 - Reste à remplir le formulaire ci-dessous. On mettra le mot cherché dans la case 1 ou la liste de mots dans la case 2. Et on choisira les options convenables, à savoir:

- Choix 1 (auteur par auteur)

- Tri par ordre alphabétique des auteurs

Terminer en activant le bouton EXECUTION.



 

8 - Quand le résultat est obtenu, le sauvegarder grâce à la fonction SAVE AS de NETSCAPE, en choisissant le nom du fichier et le bon emplacement (répertoire C:\THIEF\ dans la version PC, Dossier THIEF dans la version Mac). Veiller à enregistrer le fichier en mode TEXTE, plutôt qu'en mode SOURCE (ou format HTML). Cela est possible avec Netscape version Mac, et aussi avec la version 3 de Netscape pour Windows. Mais comme le mode SOURCE est le seul possible dans NETSCAPE 2 pour Windows, on a prévu une traduction des données ainsi présentées.

Enregistrement sur Mac:

 

Si le mot est rare, ou que certains auteurs soient peu représentés dans le corpus, il peut se faire que l'effectif étant nul dans une division particulière, il n'en soit pas fait mention dans les résultats. Le calcul prend donc pour base uniquement les auteurs (ou les textes) qui contiennent au moins une fois le mot considéré. Les auteurs qui ont délibérément ignoré le mot en question, sont tenus à l'écart du vote et sont considérés comme abstentionnistes. Ce cas ne se produit guère, si le mot est fréquent ou s'il s'agit d'une liste de mots.

9 - Quand le fichier-résultat a été sauvegardé, on peut abandonner FRANTEXT et NETSCAPE et solliciter le bouton auteur de la base (Mac à gauche, PC à droite).



10 - Le résultat final est un histogramme qui apparaît d'abord sur l'écran puis est transmis à l'imprimante, si on le désire. Noter que la place est trop exiguë pour représenter la série dans son intégralité. Dans certains cas c'est plus d'un millier d'auteurs qui sollicitent chacun un "bâton" de l'histogramme. Le programme permet de ne retenir que les plus importants, c'est à dire les mieux représentés dans le corpus. Le seuil proposé pour l'étendue est de 200 000 occurrences, mais l'utilisateur peut déplacer ce seuil vers le haut ou le bas.

On trouvera ci-dessous deux exemples. Le premier, au format Windows, rend compte de la distribution du mot ennui chez les romanciers depuis 1800. Le second, au format Mac, est relatif au mot langage.

Le mot ennui (version PC)



Le mot langage (version Mac)



11 - Si l'on préfère une autre présentation, solliciter le bouton "excel" de la base, en précisant que les données sont dans le fichier "REPARTITION" (version Mac) ou dans le fichier AUTEUR.xl (version PC). Le contenu d'un tel fichier se présente comme suit:


Là encore selon le seuil choisi la liste sera plus ou moins longue. Mais EXCEL a tant de possibilités que les séries longues gardent un minimum de lisibilité, si l'on choisit le type adéquat de représentation graphique.

12 - Exemple de graphique obtenu avec Excel (extrait)



 
Sommaire