THIEF (Tools for Helping Interrogation and Exploitation of Frantext)
Version 2
(Mac et Windows)

Retour au sommaire

La connexion ou distance lexicale


Parmi ces fonctions particulières, la plus intéressante est celle qui établit la distance lexicale entre deux époques. On a le sentiment que plus les époques sont éloignées, plus s'accroissent les différences relevées dans leur vocabulaire. C'est ce que prouve en effet un calcul d'un type particulier, qui se désintéresse des fréquences et ne considère plus que la présence/absence. Il consiste à relever l'effectif des mots communs à deux textes, et celui du vocabulaire exclusif de chacun. Tout mot que l'on trouve dans une tranche contribue à la coloration particulière de cette tranche. Mais il peut choisir deux tranches à la fois (ou davantage) et contribuer par sa présence au rapprochement des deux tranches. Dans le dépouillement final chaque tranche compte non seulement ses partisans, mais aussi les bulletins multiples où elle est associée à d'autres tranches. Au total deux tranches sont proches quand elles partagent plus de mots communs. Pour une paire donnée, ce rapport entre les mots exclusifs et les mots communs constitue la distance entre les deux éléments de la paire considérée. Ainsi au croisement des tranches 1550 et 1630 on compte 32664 mots qui sont dans la première sans être dans la seconde, 75521 qui sont dans la situation inverse et 39554 qui forment la zone commune du vocabulaire. La distance entre les deux tranches s'obtient en cumulant la part exclusive de chacune, soit pour l'exemple choisi:

f(exclusivités du texte A;vocabulaire du texte A) + f(exclusivités du texte B;vocabulaire du texte B) = f(32664;32664+39554) + f(75521;75521+39554) = 1,109

On trouvera dans le tableau 29 l'ensemble des données qui permettent d'établir la carte électorale des mots au cours de cinq siècles de littérature.

Tableau 29. Distance lexicale des 12 tranches chronologiques


Nombre de formes privatives

       1550   1630   1692   1735  1780  1820  1855  1885  1910  1928  1942  1960

       

1550      0  32664  46289  47397 46252 48692 48182 48834 50438 50321 50657 51855 

1630  75521      0  70289  71263 68986 74369 73253 75325 78260 78150 78600 81183 

1692  54123  35266      0  33796 32063 36836 36106 38781 41487 40848 41745 44201 

1735   6203  43045  40601     0  29727 36871 36869 39519 42742 42228 42984 45627 

1780  87873  67750  65850  56709     0 51207 49266 53736 58817 58370 59443 63230 

1820  90515  73335  70825  64055 51409     0 38526 44574 50821 50414 51635 55970 

1855 125984 108198 106074 100032 85447 74505     0 63940 74929 73841 75788 80850 

1885 111507  95141  93620  87553 74788 65424 48811     0 57984 57370 58857 63977 

1910  90728  75693  73943  68393 57486 49288 37417 35601     0 38096 40037 44890 

1928 102770  87742  85463  80038 69198 61040 48488 47146 50255 0     47560 52306 

1942  97939  83025  81193  75627 65104 57094 45268 43466 47029 42393     0 45797 

1960  97181  83652  81693  76314 66935 59473 48374 46630 49926 45183 43841     0 





                                         (Nombre de formes communes)



          1550  1630  1692  1735  1780  1820  1855  1885  1910  1928  1942  1960 



1550           39554 25929 24821 25966 23526 24036 23384 21780 21897 21561 20363 

1630     1,109       44786 43812 46089 40706 41822 39750 36815 36925 36475 33892 

1692     1,317 1,051       46256 47989 43216 43946 41271 38565 39204 38307 35851 

1735     1,371 1,115 0,890       57130 49986 49988 47338 44115 44629 43873 41230 

1780     1,412 1,195 0,979 0,840       62632 64573 60103 55022 55469 54396 50609 

1820     1,468 1,289 1,081 0,986 0,901       75515 69467 63220 63627 62406 58071 

1855     1,507 1,358 1,158 1,091 1,002 0,834       86080 75091 76179 74232 69170 

1885     1,503 1,360 1,178 1,104 1,026 0,876 0,788       76907 77521 76034 70914

1910     1,505 1,353 1,175 1,100 1,028 0,884 0,832 0,746       74412 72471 67618 

1928     1,521 1,383 1,196 1,128 1,068 0,932 0,881 0,803 0,742       77107 72361 

1942     1,521 1,378 1,201 1,128 1,067 0,931 0,884 0,800 0,749 0,736       73703

1960     1,545 1,417 1,247 1,175 1,125 0,997 0,950 0,871 0,824 0,804 0,756 



          1550  1630  1692  1735  1780  1820  1855  1885  1910  1928  1942  1960 



(Distance globale des textes deux à deux) 






Avant de commenter ce tableau et d'en faire apparaître les lignes de force, il convient de remarquer que les mots fréquents, qu'on retrouve nécessairement dans toutes les tranches, se trouvent par là même empêchés de manifester leur préférence et n'exercent plus cette domination gênante qu'ils imposent dans d'autres calculs. La tranche 1910, représentée ci-dessous correspond exactement à ce qu'on attend d'une évolution progressive et régulière. La proximité du vocabulaire a un lien direct avec la proximité chronologique et la distance lexicale est plus courte avec les tranches voisines. Et cela se constate dans presque toutes les tranches, notamment dans la dernière où la courbe prend la forme d'une diagonale parfaite. Mais on ne trouve pas la diagonale symétrique attendue au début de la chaîne. Au lieu d'une pente régulière, la figure 30, dans sa partie gauche, montre que la première tranche est sans lien avec les autres, sinon, faiblement, la seconde, et qu'un mur abrupt sépare le XVI siècle de ceux qui suivent. L'instabilité de l'orthographe a déjà été invoquée pour expliquer ce phénomène. D'autres facteurs jouent sans doute aussi qu'il est malaisé de circonscrire. En tous cas, le temps n'apparaît pas homogène et la figure 31 qui cumule les 12 profils n'est ni symétrique, ni réversible. Les premières tranches, isolées, servent de repoussoir quand les dernières apparaissent comme le lieu de la convergence. L'analyse factorielle appliquée au tableau 29 confirme cette dissymétrie. On y reconnaît le croissant caractéristique des données sérielles et toutes les tranches se suivent le long de la chaîne du temps, sans aucune permutation. Mais la distance entre elles est inégale. À gauche de longs espaces séparent les cinq tranches qui précèdent la Révolution. À droite les intervalles se rétrécissent et les dernières tranches se recouvrent presque. Est-ce là le reflet de la composition du corpus, où les limites temporelles sont inégalement réparties, de plus longs espaces ayant été alloués aux premières tranches parce que la densité des textes y était plus faible? Ou s'agit-il d'un ralentissement du mouvement de la langue, au moins dans son aspect lexical? On a coutume d'évoquer dans d'autres domaines l'accélération de l'histoire. Dans celui de la langue, l'accélération ne se fait pas sentir. On constate plutôt des effets de freinage, et les tentatives, anciennes ou récentes, de réforme de l'orthographe ont confirmé la force de l'inertie.



Figure 30. La distance lexicale dans la tranche 1650

Figure 31. La distance lexicale dans la tranche 1910

Figure 32. Courbes superposées de la distance lexicale

Figure 32. Analyse factorielle de la distance lexicale


Retour au sommaire