THIEF off line
THIEF
(Tools for Helping Interrogation and Exploitation of Frantext)
Version 2
(Mac et Windows)
Retour au sommaire
Analyse factorielle
Il est possible d'utiliser des procédures statistiques plus synthétiques
que de simples histogrammes. Le bouton FACTOR (du menu LISTES, fig. 12 et
13) permet de soumettre au calcul une série de formes, qui seront
traitées ensemble selon les méthodes multidimensionnelles.
Le programme utilisé a été emprunté à
l'association ADDAD (Association pour le Développement et la Diffusion
de l'Analyse des Données, 22 rue Charcot, 75013 Paris, tél:
45 85 40 28. Responsable J.P.Fénelon), qui distribue un logiciel
complet pour l'analyse des données. Un seul module est ici mis en
oeuvre qui est celui de l'analyse de correspondance, et suit l'algorithme
proposé par Jean-Paul Benzécri. On a prévu la distorsion
que peut amener dans les données linguistiques l'effet de taille,
c'est-à-dire une trop grande disproportion entre les lignes (les
mots peuvent avoir des fréquences très inégales), ou
entre les colonnes (les tranches peuvent avoir des étendues fort
déséquilibrées). Afin d'atténuer ces inégalités,
on a converti les fréquences en écarts réduits et ceux-ci
ont été transposés dans la zone positive, la valeur
la plus basse commençant à 0.
On doit avertir l'utilisateur de la version Windows que l'implantation de
ce programme fortran n'y est pas définitive. Si le traitement se
déroule normalement avec le system Windows 3, le code ne convient
plus à Windows 95, et une nouvelle compilation est en préparation.
Si l'on dispose de la bonne configuration, au bout de quelques secondes,
les données transposées apparaissent à l'écran
(voir figure 16) et les résultats sont disponibles, d'abord dans
un fichier (ANALYSE.afc), puis dans un champ spécial ouvert
par le bouton Voir analyse (figure 17).
Figure 16. Préparation de l'analyse factorielle
Figure 17. Résultats de l'analyse factorielle
La version Mac est plus élaborée. D'une part le code y est
admis par tous les microprocesseurs (Power ou non); d'autre part l'analyse
n'impose pas la transformation en écart réduit. Les fréquences
absolues peuvent être traitées comme telles et la pondération
peut faire aussi appel aux logarithmes. Si l'on prend pour base ces logarithmes,
on applique la formule de transformation suivante (n étant
la fréquence observée d'un mot dans une époque, log
le logarithme népérien et round la fonction d'arrondi
à l'entier le plus proche):
x = round (log (n +1)*10)+100
On obtient des nombres compris généralement entre 100 et 200
qui donnent à chaque série (c'est-à-dire à chaque
mot) une importance mieux équilibrée et restituent une image
plus juste de la république des mots, le vote censitaire ayant fait
place à un système plus égalitaire qui se rapproche
du suffrage universel et limite les écarts du simple au double. Voici
la loi de transformation pour les sous-fréquences allant de 0 à
20000:
0 -> 100 1->107 2->111 3->114 4->116 5->118 6->119
7>121 8->122 9->123 10->124 20->130 50->139 100->146
200->153 500->162 1000->169 2000->176 5000->185 10000->192
20000->199
Le calcul est réalisé par un programme extérieur, situé
dans le dossier ADDAD de la version Mac. Ne jamais changer le nom
ni l'emplacement de ce dossier, qui doit se trouver au même niveau
hiérarchique que le logiciel THIEF. Outre le programme ADDAD
APL (ancorr.exe dans la version PC), ce dossier contient en effet le
fichier des paramètres DATA (afc.par dans la version
PC), comme aussi celui des données TABLEAU (Tableau.afc
dans la version PC) et celui des résultats ANALYSE (analyse.afc
dans la version PC). Ces trois fichiers sont créés - et donc
préalablement effacés- à chaque lancement du programme
FACTORIELLE. Il suffit de leur donner un autre nom pour les conserver.
Mais cela n'est guère nécessaire, car les résultats
reviennent automatiquement dans un champ de la base, que l'on peut éditer
et imprimer.
Noter que le graphique signale l'emplacement des points doubles où
se produit un recouvrement et que la désignation de chaque point
occupe quatre lettres au maximum (les trois premières et la dernière
du mot). Si la base n'est pas verrouillée, il est aisé de
rendre le graphique plus lisible, avant de l'envoyer à l'imprimante,
en complétant les noms (sans modifier l'emplacement) ou en explicitant
les symboles. Le programme d'impression prévoit plusieurs options
qui permettent d'éditer la totalité des résultats,
ou l'une des pages, ou l'un des graphiques. Si la pile est verrouillée,
le fichier ANALYSE (ou analyse.afc) ne l'est pas. Un éditeur
permet de reprendre les mêmes résultats qui y sont catalogués.
Retour au sommaire