THIEF (Tools for Helping
Interrogation and Exploitation of Frantext)
Version 2
(Mac et Windows)
Retour au sommaire
La connexion ou distance lexicale
Parmi ces fonctions particulières, la plus intéressante est
celle qui établit la distance lexicale entre deux époques.
On a le sentiment que plus les époques sont éloignées,
plus s'accroissent les différences relevées dans leur vocabulaire.
C'est ce que prouve en effet un calcul d'un type particulier, qui se désintéresse
des fréquences et ne considère plus que la présence/absence.
Il consiste à relever l'effectif des mots communs à deux textes,
et celui du vocabulaire exclusif de chacun. Tout mot que l'on trouve dans
une tranche contribue à la coloration particulière de cette
tranche. Mais il peut choisir deux tranches à la fois (ou davantage)
et contribuer par sa présence au rapprochement des deux tranches.
Dans le dépouillement final chaque tranche compte non seulement ses
partisans, mais aussi les bulletins multiples où elle est associée
à d'autres tranches. Au total deux tranches sont proches quand elles
partagent plus de mots communs. Pour une paire donnée, ce rapport
entre les mots exclusifs et les mots communs constitue la distance entre
les deux éléments de la paire considérée. Ainsi
au croisement des tranches 1550 et 1630 on compte 32664 mots qui sont dans
la première sans être dans la seconde, 75521 qui sont dans
la situation inverse et 39554 qui forment la zone commune du vocabulaire.
La distance entre les deux tranches s'obtient en cumulant la part exclusive
de chacune, soit pour l'exemple choisi:
f(exclusivités du texte A;vocabulaire du texte A) + f(exclusivités
du texte B;vocabulaire du texte B) = f(32664;32664+39554) + f(75521;75521+39554)
= 1,109
On trouvera dans le tableau 29 l'ensemble des données qui permettent
d'établir la carte électorale des mots au cours de cinq siècles
de littérature.
Tableau 29. Distance lexicale des 12 tranches chronologiques
Nombre de formes privatives
1550 1630 1692 1735 1780 1820 1855 1885 1910 1928 1942 1960
1550 0 32664 46289 47397 46252 48692 48182 48834 50438 50321 50657 51855
1630 75521 0 70289 71263 68986 74369 73253 75325 78260 78150 78600 81183
1692 54123 35266 0 33796 32063 36836 36106 38781 41487 40848 41745 44201
1735 6203 43045 40601 0 29727 36871 36869 39519 42742 42228 42984 45627
1780 87873 67750 65850 56709 0 51207 49266 53736 58817 58370 59443 63230
1820 90515 73335 70825 64055 51409 0 38526 44574 50821 50414 51635 55970
1855 125984 108198 106074 100032 85447 74505 0 63940 74929 73841 75788 80850
1885 111507 95141 93620 87553 74788 65424 48811 0 57984 57370 58857 63977
1910 90728 75693 73943 68393 57486 49288 37417 35601 0 38096 40037 44890
1928 102770 87742 85463 80038 69198 61040 48488 47146 50255 0 47560 52306
1942 97939 83025 81193 75627 65104 57094 45268 43466 47029 42393 0 45797
1960 97181 83652 81693 76314 66935 59473 48374 46630 49926 45183 43841 0
(Nombre de formes communes)
1550 1630 1692 1735 1780 1820 1855 1885 1910 1928 1942 1960
1550 39554 25929 24821 25966 23526 24036 23384 21780 21897 21561 20363
1630 1,109 44786 43812 46089 40706 41822 39750 36815 36925 36475 33892
1692 1,317 1,051 46256 47989 43216 43946 41271 38565 39204 38307 35851
1735 1,371 1,115 0,890 57130 49986 49988 47338 44115 44629 43873 41230
1780 1,412 1,195 0,979 0,840 62632 64573 60103 55022 55469 54396 50609
1820 1,468 1,289 1,081 0,986 0,901 75515 69467 63220 63627 62406 58071
1855 1,507 1,358 1,158 1,091 1,002 0,834 86080 75091 76179 74232 69170
1885 1,503 1,360 1,178 1,104 1,026 0,876 0,788 76907 77521 76034 70914
1910 1,505 1,353 1,175 1,100 1,028 0,884 0,832 0,746 74412 72471 67618
1928 1,521 1,383 1,196 1,128 1,068 0,932 0,881 0,803 0,742 77107 72361
1942 1,521 1,378 1,201 1,128 1,067 0,931 0,884 0,800 0,749 0,736 73703
1960 1,545 1,417 1,247 1,175 1,125 0,997 0,950 0,871 0,824 0,804 0,756
1550 1630 1692 1735 1780 1820 1855 1885 1910 1928 1942 1960
(Distance globale des textes deux à deux)
Avant de commenter ce tableau et d'en faire apparaître les lignes
de force, il convient de remarquer que les mots fréquents, qu'on
retrouve nécessairement dans toutes les tranches, se trouvent par
là même empêchés de manifester leur préférence
et n'exercent plus cette domination gênante qu'ils imposent dans d'autres
calculs. La tranche 1910, représentée ci-dessous correspond
exactement à ce qu'on attend d'une évolution progressive et
régulière. La proximité du vocabulaire a un lien direct
avec la proximité chronologique et la distance lexicale est plus
courte avec les tranches voisines. Et cela se constate dans presque toutes
les tranches, notamment dans la dernière où la courbe prend
la forme d'une diagonale parfaite. Mais on ne trouve pas la diagonale symétrique
attendue au début de la chaîne. Au lieu d'une pente régulière,
la figure 30, dans sa partie gauche, montre que la première tranche
est sans lien avec les autres, sinon, faiblement, la seconde, et qu'un mur
abrupt sépare le XVI siècle de ceux qui suivent. L'instabilité
de l'orthographe a déjà été invoquée
pour expliquer ce phénomène. D'autres facteurs jouent sans
doute aussi qu'il est malaisé de circonscrire. En tous cas, le temps
n'apparaît pas homogène et la figure 31 qui cumule les 12 profils
n'est ni symétrique, ni réversible. Les premières tranches,
isolées, servent de repoussoir quand les dernières apparaissent
comme le lieu de la convergence. L'analyse factorielle appliquée
au tableau 29 confirme cette dissymétrie. On y reconnaît le
croissant caractéristique des données sérielles et
toutes les tranches se suivent le long de la chaîne du temps, sans
aucune permutation. Mais la distance entre elles est inégale. À
gauche de longs espaces séparent les cinq tranches qui précèdent
la Révolution. À droite les intervalles se rétrécissent
et les dernières tranches se recouvrent presque. Est-ce là
le reflet de la composition du corpus, où les limites temporelles
sont inégalement réparties, de plus longs espaces ayant été
alloués aux premières tranches parce que la densité
des textes y était plus faible? Ou s'agit-il d'un ralentissement
du mouvement de la langue, au moins dans son aspect lexical? On a coutume
d'évoquer dans d'autres domaines l'accélération de
l'histoire. Dans celui de la langue, l'accélération ne se
fait pas sentir. On constate plutôt des effets de freinage, et les
tentatives, anciennes ou récentes, de réforme de l'orthographe
ont confirmé la force de l'inertie.
Figure 30. La distance lexicale dans la tranche 1650
Figure 31. La distance lexicale dans la tranche 1910
Figure 32. Courbes superposées de la distance lexicale
Figure 32. Analyse factorielle de la distance lexicale
Retour au sommaire