THIEF off line
THIEF
(Tools for Helping Interrogation and Exploitation of Frantext)
Version 2
(Mac et Windows)
Retour au sommaire
Les listes
La page (ou carte) LISTE qui est le point de départ de presque toutes
les randonnées statistiques, propose une série de boutons,
qui permettent de choisir librement les mots de la série (figure
12, version Mac, figure 13, version Windows), ou de faire une sélection
automatique, à partir de l'initiale, de la finale, ou d'une chaine
de caractères à l'intérieur du mot.
Figure 12. Les listes de mots (version Apple)
Figure 13. Les listes de mots (version Windows)
Quelques variantes distinguent les versions Apple et Windows: la première
offre des choix supplémentaires qui portent sur les mots de grande
fréquence, sur les suffixes ou sur l'importation/exportation des
données. La seconde montre à l'écran la série
des écarts réduits qui correspondent à la distribution
considérée (figure 14).
Figure 14. Les écarts réduits (version Windows)
Les autres options sont communes aux deux standards, à savoir:
a - Deux boutons opèrent des regroupements spécifiques:
- le premier (GROUPES) permet de constituer un tableau à deux dimensions
représentant la distribution des groupes de fréquence dans
le corpus. Neuf classes ont été préétablies
qui donnent lieu à 9 lignes, où sont portés successivement
les effectifs des mots rares dans chaque texte, puis ceux des mots moins
rares pour finir par les plus fréquents.
- le second (LONG) fait venir sur l'écran les classes de mots
établies sur le critère de la longueur (ou nombre de caractères).
La classe 1 (symbole lg1) est dévolue aux formes qui n'ont qu'une
lettre, la classe 2 (lg2) à celles qui en ont deux, etc...Il y a
cependant des regroupements pour les classes de mots longs: la classe 9
mêle les mots de 9 et 10 lettres, la classe 10 ceux de 11,12 et 13
lettres, et la classe 11 ceux qui sont au delà.
b - Le programme d'illustration graphique offre une variante qui
analyse les éléments d'une ou de deux colonnes, dans un tableau
de fréquences où les lignes désignent généralement
les mots, et les colonnes les 12 périodes du corpus. Un tel graphique
permet non plus de suivre la distribution d'un mot à travers les
tranches, mais de dresser le profil d'une tranche à travers les mots
qui s'y trouvent employés. Dans cette approche comme dans l'autre,
c'est l'écart réduit qui sert d'ordonnée à l'histogramme.
Voir figure 15, consacrée à l'époque classique.
Figure 15. Le profil de l'époque classique
(à travers le filtre du tableau 14)
c - La totalisation partielle ou complète des lignes d'un
tableau peut être réalisée dans la carte LISTE, soit
en répondant par le mot "total" au dialogue généré
par le programme graphique, soit, lorsqu'il s'agit d'un sous-total, en agissant
sur le bouton marqué du symbole +/-.
Retour au sommaire