Sommaire
Constitution et analyse de tableaux à deux dimensions
On vise ici à apporter à FRANTEXT un complément statistique
de grande utilité: la constitution de tableaux à double entrée,
où les éléments représentent la fréquence
du mot x dans le corpus y (les mots sont les lignes et les textes - ou corpus
- les colonnes). Pour la capture des données on fait appel, de façon
répétitive, à la même fonction de FRANTEXT qui
délivre les fréquences des mots d'une liste donnée
dans un corpus donné. A chaque itération, le corpus exploité
diffère du précédent et génère un nouveau
fichier.
On s'adressera à FRANTEXT, en utilisant INTERNET, le réseau
WEB, et l'outil de communication NETSCAPE. On suppose bien entendu que l'utilisateur
a acquis le droit d'entrée qui donne accès à FRANTEXT.
Les phases initiales de la procédure sont les mêmes que dans
le programme Chrono, où on les trouvera détaillées.
1 - Solliciter par un clic le bouton Frantext, qui fait appel à NETSCAPE.
2 - Cliquer sur l'ancre FRANTEXT qui contient l'adresse réelle de
la base. On est alors mis en liaison avec le serveur de FRANTEXT qui envoie
la page d'accueil habituelle.
3 - Solliciter le bouton "ACTIVATION DE FRANTEXT" qui conduit
au menu principal. Cette fois au lieu de procéder immédiatement
à la sélection bibliographique, on activera la 7e ligne du
menu principal: "Création/édition de listes de mots".
Il s'agit en effet de considérer l'emploi des mêmes mots dans
une série de textes ou corpus différents.
4 - Il y a plusieurs outils qui permettent de sélectionner automatiquement
les mots qui appartiennent au même paradigme. S'y ajoute une sélection
manuelle, qui autorise la création libre ou, plus souvent, la correction
des listes automatiques.
5 - Si l'on opte pour la saisie manuelle, on dispose d'un champ à
remplir à sa guise, où toutes les retouches sont permises
tant que l'envoi n'a pas été déclenché. La liste
est alors constituée avec le nom qu'on lui a donné.
6 - Commence alors une opération répétitive qui isole
des textes ou corpus en y recherchant les mots de la liste avec leurs féquences
respectives. Il y a de gros avantages à présenter l'ordre
alphabétique, afin que le parallélisme facilite la comparaison.
À chaque étape il faut faire une sélection bibliographique,
selon le processus habituel. Pour exemple on choisira quelques écrivains,
de Voltaire à Sartre.
7 - Dès qu'un corpus est établi, on déclenche l'item
"Calcul des fréquences" du menu principal, puis l'item
2 "Calcul de la fréquence d'un mot ou de chaque mot d'une liste"
du menu suivant.
8 - Après qu'on a précisé le nom de la liste, on obtient
les précieuses fréquences, qui ne prendront de la valeur que
par comparaison, quand plusieurs textes ou corpus auront été
soumis à la même enquête.
On préserve les résultats partiels dans des fichiers, dûment
étiquetés, en faisant appel à la fonction SAVE AS (ou
ENREGISTRER ). Loger ces fichiers côte à côte, pour l'étape
dernière qui va les fusionner. Prendre garde à l'emplacement
qui leur est réservé (dans le répertoire c:\THIEF\
pour la version PC, dans le Dossier THIEF pour la version Mac). Veiller
surtout à retenir les noms qui leur sont alloués. Si on a
le choix, préférer le mode Texte au mode Source. Ce dernier
mode (qui correspond au standard HTML) est cependant pris en compte dans
les traitements de la version PC.
9 - Quitter alors FRANTEXT et NETSCAPE et retourner à la pile
en y sollicitant le bouton Tableau. Les préparatifs étant
réalisés, le lancement du programme TABLEAU ne sollicite,
à chaque étape, que le nom du fichiers à traiter et
à joindre aux autres.
Ce programme reprend les informations contenues dans ces fichiers et les
redispose dans un tableau à deux dimensions en y ajoutant les totaux
marginaux (de ligne et de colonne), grâce à quoi un écart
réduit peut être calculé pour chaque cellule de la matrice.
Dans la version Mac, es résultats sont dirigés sur l'écran,
mais aussi sur deux fichiers dont le premier (LISTE) restitue les fréquences
absolues et le second (REDUIT) les écarts réduits. L'un et
l'autre fichiers peuvent servir d'entrée au logiciel EXCEL. On trouvera
ci-dessous la copie de l'écran tel qu'il se présente au cours
du programme et tel qu'on le retrouvera dans le fichier LISTE.
Dans la version PC, les résultats prennent place dans des champs
qui appartaissent alternativement à l'écran, quand on sollicite
le bouton correspondant: FREQUENCE ou ECART, comme on peut le voir dans
les deux figurent qui suivent.
Tableau des fréquences absolues
Tableau des écarts réduits
Le programme propose de dessiner la courbe (sur l'écran et l'imprimante)
de n'importe quelle ligne (ou mot) du tableau, ou de n'importe quelle colonne
(ou corpus). Dans la version PC il suffit de cliquer un mot ou le nom d'une
colonne. Dans la version Mac, il faut solliciter le bouton Ligne
ou le bouton Colonne et répondre au dialogue. Noter que les
probabilités sont calculées en prenant pour base le total,
dans chaque colonne, des mots considérés. À titre d'exemple
on donne ci-dessous le profil d'une ligne (le mot vous), puis d'une
colonne (le profil de Proust où le moi, comme on peut voir,
tient une assez grande place).
Courbe d'une ligne (ici le mot vous) dans la version PC
Courbe d'un écrivain (une colonne, ici Proust) dans la version Mac.
Dans la version Mac, on peut représenter deux colonnes simultanément,
pour voir leur corrélation ou leur opposition, ou pareillement deux
lignes. Dans les deux versions des retouches peuvent aussi être apportées
au tableau des données, si l'on désire éliminer des
mots dont la distribution s'accorde mal avec la série. Nul besoin
de renouveler l'interrogation de Frantext. Il suffit de cliquer sur le mot
indésirable pour l'effacer de l'écran. Tous les calculs d'écarts
réduits s'appuient sur les effectifs marginaux, en ignorant toute
autre considération. L'étendue respective des textes n'entre
pas dans le calcul, mais seulement la somme des occurrences rencontrées
dans ce texte pour les mots de la liste - ce qui est une situation classique
en statistique.
Si l'on ne se satisfait pas de la représentation graphique proposée,
on peut faire appel à un tableur extérieur, par exemple Excel.
Un lien est établi avec le tableur, et le passage des données
assuré par des fichiers au format requis (TABLE.xl dans la version
PC, REDUIT ou LISTEdans la version Mac).
En outre le programme TABLE (ou TABLEAU dans la version PC) prépare
les données pour les soumettre à l'Analyse factorielle. Voir
l'aide relative à ce programme.
Sommaire