THIEF off line THIEF (Tools for Helping Interrogation and Exploitation of Frantext)
Version 2
(Mac et Windows)

Retour au sommaire


Analyse factorielle


Il est possible d'utiliser des procédures statistiques plus synthétiques que de simples histogrammes. Le bouton FACTOR (du menu LISTES, fig. 12 et 13) permet de soumettre au calcul une série de formes, qui seront traitées ensemble selon les méthodes multidimensionnelles. Le programme utilisé a été emprunté à l'association ADDAD (Association pour le Développement et la Diffusion de l'Analyse des Données, 22 rue Charcot, 75013 Paris, tél: 45 85 40 28. Responsable J.P.Fénelon), qui distribue un logiciel complet pour l'analyse des données. Un seul module est ici mis en oeuvre qui est celui de l'analyse de correspondance, et suit l'algorithme proposé par Jean-Paul Benzécri. On a prévu la distorsion que peut amener dans les données linguistiques l'effet de taille, c'est-à-dire une trop grande disproportion entre les lignes (les mots peuvent avoir des fréquences très inégales), ou entre les colonnes (les tranches peuvent avoir des étendues fort déséquilibrées). Afin d'atténuer ces inégalités, on a converti les fréquences en écarts réduits et ceux-ci ont été transposés dans la zone positive, la valeur la plus basse commençant à 0.

On doit avertir l'utilisateur de la version Windows que l'implantation de ce programme fortran n'y est pas définitive. Si le traitement se déroule normalement avec le system Windows 3, le code ne convient plus à Windows 95, et une nouvelle compilation est en préparation. Si l'on dispose de la bonne configuration, au bout de quelques secondes, les données transposées apparaissent à l'écran (voir figure 16) et les résultats sont disponibles, d'abord dans un fichier (ANALYSE.afc), puis dans un champ spécial ouvert par le bouton Voir analyse (figure 17).


Figure 16. Préparation de l'analyse factorielle




Figure 17. Résultats de l'analyse factorielle




La version Mac est plus élaborée. D'une part le code y est admis par tous les microprocesseurs (Power ou non); d'autre part l'analyse n'impose pas la transformation en écart réduit. Les fréquences absolues peuvent être traitées comme telles et la pondération peut faire aussi appel aux logarithmes. Si l'on prend pour base ces logarithmes, on applique la formule de transformation suivante (n étant la fréquence observée d'un mot dans une époque, log le logarithme népérien et round la fonction d'arrondi à l'entier le plus proche):

x = round (log (n +1)*10)+100

On obtient des nombres compris généralement entre 100 et 200 qui donnent à chaque série (c'est-à-dire à chaque mot) une importance mieux équilibrée et restituent une image plus juste de la république des mots, le vote censitaire ayant fait place à un système plus égalitaire qui se rapproche du suffrage universel et limite les écarts du simple au double. Voici la loi de transformation pour les sous-fréquences allant de 0 à 20000:

0 -> 100 1->107 2->111 3->114 4->116 5->118 6->119 7>121 8->122 9->123 10->124 20->130 50->139 100->146 200->153 500->162 1000->169 2000->176 5000->185 10000->192 20000->199

Le calcul est réalisé par un programme extérieur, situé dans le dossier ADDAD de la version Mac. Ne jamais changer le nom ni l'emplacement de ce dossier, qui doit se trouver au même niveau hiérarchique que le logiciel THIEF. Outre le programme ADDAD APL (ancorr.exe dans la version PC), ce dossier contient en effet le fichier des paramètres DATA (afc.par dans la version PC), comme aussi celui des données TABLEAU (Tableau.afc dans la version PC) et celui des résultats ANALYSE (analyse.afc dans la version PC). Ces trois fichiers sont créés - et donc préalablement effacés- à chaque lancement du programme FACTORIELLE. Il suffit de leur donner un autre nom pour les conserver. Mais cela n'est guère nécessaire, car les résultats reviennent automatiquement dans un champ de la base, que l'on peut éditer et imprimer.

Noter que le graphique signale l'emplacement des points doubles où se produit un recouvrement et que la désignation de chaque point occupe quatre lettres au maximum (les trois premières et la dernière du mot). Si la base n'est pas verrouillée, il est aisé de rendre le graphique plus lisible, avant de l'envoyer à l'imprimante, en complétant les noms (sans modifier l'emplacement) ou en explicitant les symboles. Le programme d'impression prévoit plusieurs options qui permettent d'éditer la totalité des résultats, ou l'une des pages, ou l'un des graphiques. Si la pile est verrouillée, le fichier ANALYSE (ou analyse.afc) ne l'est pas. Un éditeur permet de reprendre les mêmes résultats qui y sont catalogués.
Retour au sommaire