GRAPHIQUES
Le bouton GRAPHIQUE utilise ces probabilités pour établir des écarts et les représenter graphiquement sur un plan. La distribution d'un mot est rarement régulière à travers un corpus et des écarts s'y observent entre la fréquence d'un mot observée dans un texte et la fréquence théorique qu'on était en droit d'attendre, vu la proportion du texte dans l'ensemble, et qui s'établit avec une simple règle de trois ( fréquence théorique d'un mot dans un texte = fréquence du mot dans le corpus pondérée par la probabilité p ou part du texte dans le corpus). Le calcul pondère cet écart selon la formule de l'"écart réduit" (q étant la probabilité complémentaire 1-p):
z = (réel - théorique)/racine carrée(théorique * q)
Une fois calculés les écarts réduits, le programme présente une illustration graphique de la distribution, sous forme d'histogramme. Un dialogue s'établit avec l'utilisateur qui doit fournir le mot à étudier ( comme ci-dessous le mot vin dans le corpus Rabelais).
Histogramme du mot vin chez Rabelais
Les "bâtons" de l'histogramme se répartissent de part et d'autre de la ligne médiane qui représente la valeur 0 de l'écart réduit. Chacun de ces "bâtons" est explicité par le titre du texte correspondant. Si la série représentée se limite à une seule forme, les effectifs absolus sont détaillés sur la marge droite, la colonne voisine détaillant les écarts réduits qui servent d'abscisses à la représentation graphique.
Le bouton DOUBLE est destiné à superposer une seconde distribution à la première et à représenter deux séries sur le même graphique. Si tel est le cas, les deux séries d'écarts réduits seront visibles sur la marge droite de l'écran.
Ci-dessous le même exemple enrichi (ou appauvri), l'eau se mêlant au vin. Remarquons que la corrélation entre ces deux éléments essentiels est fermement établie, avec un coefficient de 0,76. Cela signifie qu'on les retrouve ensemble dans les mêmes passages, sinon dans les mêmes verres et les mêmes gosiers.
Le mélange de l'eau et du vin
On voit que les deux courbes suivent les mêmes inflexions, et les partisans de la Dive Bouteille seront peut-être surpris que l'eau et le vin fassent bon ménage. Mais c'est le sort des antonymes d'être enchaînés l'un à l'autre, bon gré mal gré, dans les mêmes contextes. Et cela s'observe généralement pour le vice et la vertu et ces couples désunis qui ne peuvent se détacher, comme les deux pôles d'un même aimant. Pour mesurer cette force d'attraction mutuelle, un calcul de corrélation (c'est le coefficient de Bravais-Pearson) est établi et apparaît en haut et à droite de l'écran.
Ce même calcul de corrélation est appliqué aussi à toute série dont on souhaite suivre la distribution à travers le corpus, même si l'on ne compare pas, comme dans le cas présent, deux séries, mais une seule. La deuxième série est alors constituée par le rang des textes échelonnés dans le corpus. On aboutit ainsi à un coefficient de corrélation chronologique (ou sériel) qui mesure la progression ou la régression d'un mot dans la suite des textes. Si deux courbes sont projetées simultanément, deux coefficients apparaissent au haut des deux colonnes réservées aux deux séries, à quoi s'ajoute le troisième coefficient qu'on a évoqué d'abord et qui, mettant en rapport les deux séries, établit leur corrélation mutuelle, en dehors de toute chronologie. Pour une lecture plus facile des résultats, on a indiqué quelle valeur les tables fournissent pour le coefficient de Bravais-Pearson au seuil de 5%. Bien entendu ce seuil est calculé en tenant compte du nombre de paires étudiées. Il apparaît quand on sollicite le bouton SEUIL.