ANALYSE FACTORIELLE
Il est possible d'utiliser des procédures statistiques plus synthétiques que de simples histogrammes. Le programme FACTORIELLE permet de soumettre au calcul une série de formes, qui seront traitées ensemble selon les méthodes multidimensionnelles. Le programme utilisé a été fourni par l'association ADDAD, qui distribue un logiciel complet pour l'analyse des données. Le module ici mis en oeuvre est celui de l'analyse de correspondance, qui suit l'algorithme proposé par Jean-Paul Benzécri et dont l'adaptation à Windows a été réalisée par André Salem.
On a prévu la distorsion que peut amener dans les données linguistiques l'effet de taille, c'est-à-dire une trop grande disproportion entre les lignes (les mots peuvent avoir des fréquences très inégales dont le rapport peut être de 1 à 1000), ou entre les colonnes (les textes - ou parties de texte - peuvent avoir des étendues fort déséquilibrées). Afin d'atténuer ces inégalités, le programme calcule les écarts réduits, puis les translate dans la zone positive, le plus grand nombre négatif s'alignant sur zéro et les autres éléments gardant leurs distances respectives (car l'analyse n'accepte pas les données négatives).
L'analyse factorielle est réalisée par un programme extérieur: ANCORR.exe. Elle prend appui sur le fichier des paramètres (AFC.par), celui des données (TABLEAU.afc) et celui des résultats (ANALYSE.afc). Ces trois fichiers sont créés - et donc d'abord effacés - à chaque lancement du programme FACTORIELLE. Il suffit de leur donner un autre nom pour les conserver. Mais cela n'est pas nécessaire, car les résultats reviennent dans un champ, que l'on peut éditer et imprimer.
Noter que le graphique signale l'emplacement des points doubles où se produit un recouvrement et que la désignation de chaque point (qui peut être une forme ou un texte) occupe quatre lettres au maximum (les trois premières et la dernière du mot). Il est aisé de rendre le graphique plus lisible en complétant les noms (sans modifier l'emplacement) ou en explicitant les symboles.
On trouvera ci-dessous un exemple d'analyse factorielle réalisée à partir du corpus de Rabelais. Elle est fondée sur la distribution des pronoms personnels dont le tableau a été présenté précédemment à propos des listes. Ce n'est pas le lieu de le commenter. Mais les lignes de force y sont fort visibles, qui gouvernent les situations pragmatiques, et qui opposent les genres les uns aux autres et Rabelais aux autres auteurs du corpus.
Premier et second facteurs de l'analyse factorielle
Les pronoms personnels chez Rabelais. Voir données supra
ANALYSE FACTORIELLE DU DICTIONNAIRE
Le champ ouvert par l'analyse factorielle est illimité. Les lignes du tableau (les mots de la liste) peuvent être aussi nombreuses qu'on le souhaite, à condition que soit remplie la condition liée à la taille des champs, qui ne peut dépasser 30000 caractères. Cela est suffisant pour autoriser plusieurs centaines de lignes, et davantage même, si le nombre de colonnes est réduit. Il est un cas cependant où ces bornes sont franchies: lorsqu'on souhaite prendre en compte tous les mots du corpus, ou tout au moins tous ceux qui ont une fréquence suffisante pour autoriser les calculs. Le tableau à analyser comprend alors plusieurs milliers de lignes. Cette éventualité a été prévue. Pour y faire face, un dialogue exige qu'on précise si l'objet de l'analyse se trouve dans le dictionnaire ou dans une liste. En choisissant la première proposition, on détourne le programme vers le dictionnaire où il va puiser ses données.
Le traitement - assez long (il faut une ou deux minutes) - aboutit à un résultat global dont la lecture risquerait d'être difficile si la représentation graphique des mots était maintenue. Dans un tel cas on se contente de représenter les variables ou colonnes, c'est à dire les textes du corpus. Et l'on acquiert ainsi une vue synthétique des alliances ou oppositions qui se manifestent parmi les textes à travers l'ensemble de leur vocabulaire.