Sommaire

Constitution et analyse de tableaux à deux dimensions


On vise ici à apporter à FRANTEXT un complément statistique de grande utilité: la constitution de tableaux à double entrée, où les éléments représentent la fréquence du mot x dans le corpus y (les mots sont les lignes et les textes - ou corpus - les colonnes). Pour la capture des données on fait appel, de façon répétitive, à la même fonction de FRANTEXT qui délivre les fréquences des mots d'une liste donnée dans un corpus donné. A chaque itération, le corpus exploité diffère du précédent et génère un nouveau fichier.

On s'adressera à FRANTEXT, en utilisant INTERNET, le réseau WEB, et l'outil de communication NETSCAPE. On suppose bien entendu que l'utilisateur a acquis le droit d'entrée qui donne accès à FRANTEXT. Les phases initiales de la procédure sont les mêmes que dans le programme Chrono, où on les trouvera détaillées.

1 - Solliciter par un clic le bouton Frantext, qui fait appel à NETSCAPE.

2 - Cliquer sur l'ancre FRANTEXT qui contient l'adresse réelle de la base. On est alors mis en liaison avec le serveur de FRANTEXT qui envoie la page d'accueil habituelle.

3 - Solliciter le bouton "ACTIVATION DE FRANTEXT" qui conduit au menu principal. Cette fois au lieu de procéder immédiatement à la sélection bibliographique, on activera la 7e ligne du menu principal: "Création/édition de listes de mots". Il s'agit en effet de considérer l'emploi des mêmes mots dans une série de textes ou corpus différents.



 

4 - Il y a plusieurs outils qui permettent de sélectionner automatiquement les mots qui appartiennent au même paradigme. S'y ajoute une sélection manuelle, qui autorise la création libre ou, plus souvent, la correction des listes automatiques.



 

5 - Si l'on opte pour la saisie manuelle, on dispose d'un champ à remplir à sa guise, où toutes les retouches sont permises tant que l'envoi n'a pas été déclenché. La liste est alors constituée avec le nom qu'on lui a donné.

 

6 - Commence alors une opération répétitive qui isole des textes ou corpus en y recherchant les mots de la liste avec leurs féquences respectives. Il y a de gros avantages à présenter l'ordre alphabétique, afin que le parallélisme facilite la comparaison. À chaque étape il faut faire une sélection bibliographique, selon le processus habituel. Pour exemple on choisira quelques écrivains, de Voltaire à Sartre.



7 - Dès qu'un corpus est établi, on déclenche l'item "Calcul des fréquences" du menu principal, puis l'item 2 "Calcul de la fréquence d'un mot ou de chaque mot d'une liste" du menu suivant.

 

8 - Après qu'on a précisé le nom de la liste, on obtient les précieuses fréquences, qui ne prendront de la valeur que par comparaison, quand plusieurs textes ou corpus auront été soumis à la même enquête.



On préserve les résultats partiels dans des fichiers, dûment étiquetés, en faisant appel à la fonction SAVE AS (ou ENREGISTRER ). Loger ces fichiers côte à côte, pour l'étape dernière qui va les fusionner. Prendre garde à l'emplacement qui leur est réservé (dans le répertoire c:\THIEF\ pour la version PC, dans le Dossier THIEF pour la version Mac). Veiller surtout à retenir les noms qui leur sont alloués. Si on a le choix, préférer le mode Texte au mode Source. Ce dernier mode (qui correspond au standard HTML) est cependant pris en compte dans les traitements de la version PC.

 9 - Quitter alors FRANTEXT et NETSCAPE et retourner à la pile en y sollicitant le bouton Tableau. Les préparatifs étant réalisés, le lancement du programme TABLEAU ne sollicite, à chaque étape, que le nom du fichiers à traiter et à joindre aux autres.

Ce programme reprend les informations contenues dans ces fichiers et les redispose dans un tableau à deux dimensions en y ajoutant les totaux marginaux (de ligne et de colonne), grâce à quoi un écart réduit peut être calculé pour chaque cellule de la matrice.

Dans la version Mac, es résultats sont dirigés sur l'écran, mais aussi sur deux fichiers dont le premier (LISTE) restitue les fréquences absolues et le second (REDUIT) les écarts réduits. L'un et l'autre fichiers peuvent servir d'entrée au logiciel EXCEL. On trouvera ci-dessous la copie de l'écran tel qu'il se présente au cours du programme et tel qu'on le retrouvera dans le fichier LISTE.



 Dans la version PC, les résultats prennent place dans des champs qui appartaissent alternativement à l'écran, quand on sollicite le bouton correspondant: FREQUENCE ou ECART, comme on peut le voir dans les deux figurent qui suivent.

Tableau des fréquences absolues



Tableau des écarts réduits



Le programme propose de dessiner la courbe (sur l'écran et l'imprimante) de n'importe quelle ligne (ou mot) du tableau, ou de n'importe quelle colonne (ou corpus). Dans la version PC il suffit de cliquer un mot ou le nom d'une colonne. Dans la version Mac, il faut solliciter le bouton Ligne ou le bouton Colonne et répondre au dialogue. Noter que les probabilités sont calculées en prenant pour base le total, dans chaque colonne, des mots considérés. À titre d'exemple on donne ci-dessous le profil d'une ligne (le mot vous), puis d'une colonne (le profil de Proust où le moi, comme on peut voir, tient une assez grande place).

Courbe d'une ligne (ici le mot vous) dans la version PC



Courbe d'un écrivain (une colonne, ici Proust) dans la version Mac.



Dans la version Mac, on peut représenter deux colonnes simultanément, pour voir leur corrélation ou leur opposition, ou pareillement deux lignes. Dans les deux versions des retouches peuvent aussi être apportées au tableau des données, si l'on désire éliminer des mots dont la distribution s'accorde mal avec la série. Nul besoin de renouveler l'interrogation de Frantext. Il suffit de cliquer sur le mot indésirable pour l'effacer de l'écran. Tous les calculs d'écarts réduits s'appuient sur les effectifs marginaux, en ignorant toute autre considération. L'étendue respective des textes n'entre pas dans le calcul, mais seulement la somme des occurrences rencontrées dans ce texte pour les mots de la liste - ce qui est une situation classique en statistique.

Si l'on ne se satisfait pas de la représentation graphique proposée, on peut faire appel à un tableur extérieur, par exemple Excel. Un lien est établi avec le tableur, et le passage des données assuré par des fichiers au format requis (TABLE.xl dans la version PC, REDUIT ou LISTEdans la version Mac).

En outre le programme TABLE (ou TABLEAU dans la version PC) prépare les données pour les soumettre à l'Analyse factorielle. Voir l'aide relative à ce programme.

Sommaire