LA CONNEXION LEXICALE (ou distance lexicale)
Il s'agit de considérer le vocabulaire intégral de chacun des textes du corpus. Mais on ne se préoccupe plus de fréquence. Pour un mot donné seule compte sa présence - ou son absence - dans le texte considéré. Ou plus exactement, pour deux textes dont on cherche à apprécier la connexion, un mot contribue à rapprocher ces deux textes s'il est commun aux deux et à augmenter la distance s'il est privatif et ne se rencontre que dans un seul. La collection des données est assez lourde parce qu'il faut considérer tous les mots sans exception et que pour chacun on doit prendre en compte tous les appariements de textes deux à deux (le nombre des confrontations pour n textes étant égal à n * (n-1) / 2). Elle est réalisée dans la phase d'indexation et le résultat auquel on aboutit est délivré par le bouton DISTANCE de la page STRUCTURE.
Pour chaque paire considérée, la distance obtenue tient compte de l'étendue de l'un et l'autre vocabulaires, selon la formule: d = ((a-ab)/a) + ((b-ab)/b), où ab désigne la partie commune aux vocabulaires a et b ( a-ab et b-ab recouvrant les parties privatives). C'est cette distance que montre le tableau dans sa partie supérieure, les éléments du calcul (parties communes et privatives) étant détaillés dans la suite.
Tableau de la distance lexicale des textes pris deux à deux (corpus GRACQ)
...... ARGO TENE GRAN PECH BRET SYRT PENT FORE PREF LETT ILE LETT ETRO ECRI VILL COLL CHEM
ARGO 1000 1113 1308 1326 1267 1096 1401 1244 1209 1286 1213 1269 1335 1240 1303 1394 1243
TENE 1113 1000 1174 1163 1195 1005 1246 1153 1109 1168 1134 1168 1245 1166 1236 1308 1168
GRAN 1308 1174 1000 1366 1410 1194 1409 1257 1286 1282 1219 1214 1359 1295 1295 1390 1238
PECH 1326 1163 1366 1000 1289 1149 1213 1301 1193 1277 1330 1290 1407 1266 1365 1427 1276
BRET 1267 1195 1410 1289 1000 1197 1403 1385 1054 1254 1385 1286 1346 1111 1292 1381 1213
SYRT 1096 1005 1194 1149 1197 1000 1238 1073 1136 1181 1063 1184 1221 1197 1220 1309 1170
PENT 1401 1246 1409 1213 1403 1238 1000 1344 1278 1344 1362 1349 1448 1334 1431 1480 1347
FORE 1244 1153 1257 1301 1385 1073 1344 1000 1289 1239 1057 1209 1286 1301 1292 1385 1237
PREF 1209 1109 1286 1193 1054 1136 1278 1289 1000 1147 1290 1181 1247 1053 1209 1284 1146
LETT 1286 1168 1282 1277 1254 1181 1344 1239 1147 1000 1230 1153 1260 1146 1222 1292 1144
ILE_ 1213 1134 1219 1330 1385 1063 1362 1057 1290 1230 1000 1165 1261 1278 1224 1341 1180
LETT 1269 1168 1214 1290 1286 1184 1349 1209 1181 1153 1165 1000 1179 1159 1154 1214 1096
ETRO 1335 1245 1359 1407 1346 1221 1448 1286 1247 1260 1261 1179 1000 1224 1248 1369 1181
ECRI 1240 1166 1295 1266 1111 1197 1334 1301 1053 1146 1278 1159 1224 1000 1167 1230 1100
VILL 1303 1236 1295 1365 1292 1220 1431 1292 1209 1222 1224 1154 1248 1167 1000 1234 1123
COLL 1394 1308 1390 1427 1381 1309 1480 1385 1284 1292 1341 1214 1369 1230 1234 1000 1194
CHEM 1243 1168 1238 1276 1213 1170 1347 1237 1146 1144 1180 1096 1181 1100 1123 1194 1000
Quand les distances lexicales sont visibles à l'écran, le programme GRAPHIQUE permet la représentation de la distance variable qu'un texte établit avec tous les autres (il y a donc autant de profils que de textes), tandis que le programme ANALYSE envisage l'ensemble de ces distances et propose une typologie des textes selon ce critère.
Analyse factorielle de la connexion lexicale (oeuvre de Julien GRACQ)
+--COLLINES--VILLE -------------+---------------------------------------- | LETTRINES2 ILE | | ETROITES | | | | | | | | | | GRANDE | | CHEMIN | FORET| | | | | | | | | | | | | | LETTRINES | | | | | +-------------------------------+---------------------------------------+ | | | | | | ECRIVANT | | | | ARGOL | | | SYRTES | | | | | | | | | TENEBREUX | | | | | | | | | | | PREFERENCES | | | | | | | | | | | BRETON | | | | | | | | | | | | | | | | PENTHESILEE | | | PECHEUR | +-------------------------------+---------------------------------------+
On trouvera ci-dessous une illustration de la connexion lexicale, empruntée au corpus Balzac. Elle concerne le Lys dans la Vallée, dont la thématique est proche de la Femme de trente ans, de Béatrix, du Curé de campagne et des Illusions perdues. C'est du moins ce que suggère le graphique.
Connexion lexicale. Le corpus Balzac