Michel Dubrocard

Retour


CÉSAR DANS CÉSAR

QUELQUES REMARQUES SUR L'UTILISATION DU MOT CAESAR DANS LES COMMENTAIRES SUR LA GUERRE DES GAULES. INFLUENCE DES DIMENSIONS DU CONTEXTE SUR LA DÉTERMINATION DES COOCCURRENCES SIGNIFICATIVES

1. Problèmes et Méthodes

1.1 César dans César

Comme on le sait, César parle de lui-même à la troisième personne dans ses Commentaires. Ce ton impersonnel trahit-il une modestie exemplaire, ou concourt-il à la recherche d'une objectivité au moins apparente, la question mérite d'être posée, mais elle dépasse largement le cadre de cette recherche.

Disposant, grâce aux travaux du L.A.S.L.A.[1], d'un index des Commentaires sur la Guerre des Gaules, et de différents relevés, nous souhaiterions seulement examiner ici l'environnement du mot Caesar dans cette oeuvre et, plus précisément, mesurer l'influence des dimensions du contexte sur la détermination des cooccurrences significatives.

Si l'on fait le décompte des occurrences du cognomen du futur dictateur, on constate que Caesar apparaît 381 fois dans les Commentaires, 212 fois au nominatif, Caesar, 77 fois à l'accusatif Caesarem, 42 fois au génitif, Caesaris, 25 fois au datif Caesari, 25 fois également à l'ablatif, Caesare.

Cette décrue progressive, du nominatif, très largement majoritaire, au datif et à l'ablatif, très peu représentés (moins de 7% des emplois), est sans doute significative, et mériterait d'être analysée et interprétée : ce n'est certainement pas un hasard si Caesar est sujet dans plus de la moitié de ses emplois, même s'il conviendrait, pour mesurer l'importance réelle de ce phénomène, de tenir compte de la représentation respective des différents cas pour l'ensemble des substantifs du texte, et même, plus précisément, pour l'ensemble des noms propres.

1.2 L'analyse des cooccurrences. Dimension du contexte

Cependant notre propos, ici, est un peu différent, puisque nous nous intéressons non au mot lui-même, mais à son environnement.

On sait l'intérêt que présente l'analyse des contextes, ou cooccurrences : on admet généralement que dans toute forme de texte l'auteur a tendance à associer certains mots de façon privilégiée, ou, au contraire, à en éviter le rapprochement. Différentes méthodes statistiques permettent d'isoler le résultat de ces choix, inconscients ou volontaires[2].

Quelle que soit la méthode utilisée, on doit d'abord déterminer les dimensions du contexte choisi pour l'analyse des cooccurrences : il paraît probable que l'écrivain évitera soigneusement des rapprochements fâcheux au voisinage immédiat d'un mot sensible. Si l'on élargit progressivement les dimensions du contexte, les choix conscients deviennent plus difficiles, et s'il est vrai que certains mots continuent à être associés ou dissociés de façon privilégiée, ces phénomènes d'attirance ou d'évitement échappent, pour une bonne part, à la conscience du locuteur ou du scripteur.

Le choix de ces dimensions pose donc un problème particulier.

Certains auteurs s'en tiennent aux limites de la phrase, marquées par des ponctuations fortes. Mais on peut supposer que l'attraction, ou, au contraire, la répulsion qu'un mot exerce sur un autre mot ne s'arrête pas nécessairement à des bornes typographiques, d'ailleurs absentes des textes anciens.

D'autres préfèrent prendre en compte la ligne qui contient le mot-cible, à laquelle s'ajoutent parfois une ou plusieurs lignes qui précèdent ou qui suivent. Mais la place du mot dans la ligne résulte, le plus souvent, des hasards de la mise en page.

D'autres encore délimitent un contexte de n mots, avant ou après le mot-cible. Tout dépend alors de la valeur qui est donnée à n.

Il paraît donc difficile de faire un choix parmi tous ces découpages, également arbitraires.

1. 3. Des contextes à dimensions variables

C'est pourquoi il nous a paru intéressant de mesurer l'influence des dimensions du contexte sur la détermination des cooccurrences significatives. Nous avons élaboré un programme qui nous permet de choisir librement ces dimension, en précisant simplement le nombre de mots qui précèderont et qui suivront le mot-cible. Bien entendu l'un de ces éléments pourrait être nul, ce qui revient à dire que l'on examinerait simplement n mots du contexte antérieur ou n mots du contexte postérieur.

Nous avons choisi un mot qui avait toute chance d'exercer sur son environnement une attraction ou une répulsion significative, le cognomen personnel de l'auteur des Commentaires, et nous nous sommes demandé dans quelle mesure les variations des dimensions du contexte influaient sur la détermination du vocabulaire significatif.

En prenant donc pour cible les occurrences du lemme Caesar, et de manière à balayer sur une zone assez large les différentes possibilités, nous avons retenu les options suivantes :

- 4 mots avant et 4 mots après Caesar

- 9 mots avant et 9 mots après

- 15 mots avant et 15 mots après

- 22 mots avant et 22 mots après

- 30 mots avant et 30 mots après

On remarquera que l'écart entre chaque tranche s'accroît chaque fois d'une unité.

Grâce à une adaptation de notre programme Décrypt, nous avons découpé, autour de chaque occurrence de Caesar, un contexte aux dimensions spécifiées. Ce découpage ne présente aucune difficulté. Dans le cas où deux occurrences du mot Caesar sont si proches que les contextes que nous avons retenus se chevauchent partiellement, notre programme permet de ne prendre en compte qu'une fois le fragment commun. Enfin ces divers fragments de texte sont juxtaposés de manière à former un nouveau texte, qui constitue, en quelque sorte, l'environnement plus ou moins proche du mot Caesar dans les Commentaires.

1. 4. Comparaison de fichiers-fréquence. Ecarts et Chi2

Pour comparer ce sous-ensemble au texte complet, nous établissons la fréquence de chaque mot dans chacun des deux textes. Nous formons alors l'hypothèse que le texte des Commentaires est homogène, et nous calculons, à partir de la fréquence globale d'une forme, ou d'un lemme, dans l'ensemble du texte, sa fréquence théorique dans le sous-ensemble constitué par la somme des contextes du mot Caesar. Il suffit pour cela d'une règle de trois, en tenant compte du rapport existant entre la longueur du texte global et celle des fragments mis bout à bout.

Nous comparons ensuite la fréquence théorique à la fréquence réellement observée, et nous constatons soit l'égalité des deux fréquences, soit un écart qui peut être positif ou négatif.

Bien entendu tous les écarts observés ne sont pas nécessairement significatifs. Les plus faibles peuvent fort bien s'expliquer par l'effet du hasard. Pour évaluer la probabilité d'une telle interprétation, nous utilisons le test du Chi2, qui associe simplicité et efficacité : il suffit d'élever au carré l'écart observé entre l'effectif réel et l'effectif théorique, et de diviser ce carré par l'effectif théorique, pour obtenir une valeur que des tables statistiques permettent d'associer à une probabilité. Ainsi déterminons-nous les mots qui sont associés à Caesar de façon privilégiée, ou qui, au contraire, en sont significativement disjoints.

1. 5. Lemmes et formes

Un dernier choix reste à faire : étudiera-t-on la cooccurrence des formes ou des lemmes ? Il nous a paru préférable de réunir sous leur lemme les différentes formes d'un même mot : les analyses lexicales du L.A.S.L.A. nous ont permis de présenter le texte des Commentaires sous une apparence inhabituelle, en remplaçant chaque forme par le lemme correspondant. C'est cette version du texte que nous avons utilisée (doc. 1).

Cependant nous donnerons, en annexe (doc. 2), un specimen d'une concordance de la forme Caesar, à l'intérieur des Commentarii de Bello Gallico, présentés sous leur apparence habituelle. Ce type de document permet de constater que certaines formes, à proximité immédiate du mot-cible, semblent associées de façon privilégiée. Nous nous proposons d'examiner ce point dans un autre article, où nous comparerons cooccurrences de lemmes et cooccurrences de formes.

Pour réduire les dimensions des tableaux, et nous limiter aux cas où l'excédent ou le déficit des occurrences est particulièrement significatif, nous avons choisi de ne retenir que les écarts dont la probabilité est égale ou inférieure à 1%, soit une valeur du Chi2 de 6,63, pour 1 degré de liberté. Le tri ainsi effectué est particulièrement sévère, puisqu'on admet, en règle générale, que l'écart est significatif à partir du seuil de 5%. Nous nous réservons cependant la possibilité d'évoquer occasionnellement des Chi2 compris entre 3,84 et 6,63, correspondant à des écarts dont la probabilité va de 5 à 1%.

Par ailleurs nous avons respecté la règle habituelle de l'emploi du Chi2, qui écarte les éléments dont la fréquence théorique est inférieure à 5.

2. Recherche et analyse des excédents et des déficits significatifs

Les documents 3 à 7 présentent les résultats de ces opérations. Chaque tableau correspond à une dimension déterminée du contexte. Il réunit les lemmes dont la présence, ou l'absence est significative à l'intérieur de ce contexte. Pour chacun de ces lemmes, le tableau précise l'effectif global dans l'ensemble des Commentaires, l'effectif partiel au voisinage du mot-cible, l'effectif théorique dans ce même voisinage, l'écart observé, et le Chi2 correspondant.

Dernière indication, le Chi2 global associe les Chi2 observés dans le texte partiel et dans le reste du texte. Les lemmes sont classés en fonction du sens de l'écart (excédent ou déficit), et de l'importance du dernier Chi2, de manière à dégager clairement les mots dont l'association ou la dissociation est la plus significative.

2.1. Tranches de 9 mots

Prenons tout d'abord pour exemple la document 3 (Tableau I), qui est correspond à un contexte de 4 mots précédant et suivant Caesar. Si on laisse de côté le mot Caesar lui-même, dont tous les emplois sont naturellement réunis dans notre fragment, ce qui entraîne un Chi2très élevé, nous remarquons que le lemme dont l'emploi au voisinage immédiat de Caesar est le plus significativement élevé est le verbe cognosco. Viennent ensuite ad, mitto, legatus, de, legio, Haedui, per, res et pro.

Nous laisserons aux spécialistes de César une interprétation approfondie de ces cooccurrences. Notons simplement que l'emploi privilégié d'un verbe exprimant l'acquisition ou la possession de la connaissance et du savoir ne surprend guère au voisinage du cognomen de l'auteur des Commentaires. Ad, à première vue plus mystérieux, s'éclaire sans doute par la présence de mitto et d'autres verbes de même sens qui ne sont pas assez nombreux, dans ce contexte limité, pour apparaître sur notre tableau.

La présence des autres prépositions (de, per, pro) ne s'explique pas aussi facilement. Il en est de même pour res, dont la polysémie s'accomode d'emplois très divers. Il faudrait, sans doute, revenir au détail du texte pour interpréter une présence aussi massive de ces lemmes.

En revanche on ne peut guère être surpris par la présence de legatus, de legio, voire de Haedui à proximité immédiate du cognomen du général en chef.

Si l'on examine maintenant les lemmes dont l'absence est la plus significative, nous rencontrons et, ac, possum et neque. On peut imaginer que l'absence des conjonctions de coordination n'est pas sans rapport avec la solitude du pouvoir, et que le général en chef est plus soucieux des réalités que du virtuel et du possible.Mais il ne s'agit là que d'hypothèses très gratuites, et un examen détaillé du texte serait nécessaire pour trouver une explication à ces déficits très importants.

Au total 11 lemmes apparaissent avec des excédents, 4 lemmes avec des déficits très significatifs. Notons qu'en fixant le seuil de signification à une probabilité de 5% ( Chi2 égal à 3,841), le nombre des lemmes en excédent est de 16, celui des lemmes en déficit est de 16 également.

2. 2. Tranches de 19 mots

Le document 4 (Tableau II) correspond à un contexte élargi de 10 unités, puisqu'on prend en considération 9 mots avant chaque occurrence deCaesar, et 9 mots après, soit 19 mots en comptant Caesar, contre 9 précédemment.

Le classement des mots dont l'excédent est le plus significatif est un peu modifié, puisque legatus est maintenant en tête. Le nombre de ses emplois s'est sensiblement accru : on passe de 26 occurrences dans la première sélection à 40. Des mots nouveaux apparaissent, comme nuntius, adventus, discedo, castra, facio, exercitus, auxquels s'ajoute le pronom-adjectif is. D'autres disparaissent, comme les prépositions de, per et pro et les substantifs res et legio.

Le cas de legio mérite une attention particulière : ce lemme reste encore très présent : l'excédent de ses occurrences correspond à un Chi2de 4,02, soit à une probabilité nettement inférieure à 5%. Mais il semble néanmoins qu'il soit particulièrement utilisé à proximité immédiate du cognomen du futur dictateur (27 emplois sur 189 à moins de 5 mots de distance de Caesar, seulement 11 emplois supplémentaires si l'on double les dimensions du contexte en s'éloignant de 9 mots dans chaque sens). Deux termes nouveaux, exercitus et castra, assez proches sémantiquement de legio prennent, en quelque sorte, le relais.

Parmi les lemmes en déficit, nous retrouvons et et neque, auxquels s'ajoutent un autre mot grammatical, aut, ainsi que deux substantifs flumen et homo. Ac disparaît, mais son déficit reste significatif au seuil de 5%. En revanche possum n'est plus en déficit, même au seuil de 5%.

Nous observons là un phénomène de proximité immédiate, comme pour legio, mais en sens inverse, puisqu'il s'agit de déficit et non plus d'excédent : possum semble systématiquement évité au voisinage immédiat de Caesar. Sitôt franchie une certaine limite, sa fréquence devient conforme à la moyenne de l'oeuvre.

Legio et possum illustrent deux modèles différents de distribution des cooccurrences significatives. Dans le cas de legio, on observe, après un excédent très net, une lente décrue. Dans le cas de possum on constate, après un déficit très important, un retour très rapide à une distribution homogène des occurrences.

Au total 13 lemmes apparaissent avec des excédents, 5 lemmes avec des déficits très significatifs. Notons qu'en fixant le seuil de signification à une probabilité de 5% ( Chi2 égal à 3,841), le nombre des lemmes en excédent est de 21, celui des lemmes en déficit est de 15. L'augmentation du nombre des lemmes en excédent s'explique, au moins en partie, par le seuil de 5 appliqué à l'effectif théorique. Un mot comme nuntius, employé au total 34 fois dans l'ensemble de l'oeuvre ne pouvait apparaître dans le tableau I.

2. 3. Tranches de 31 mots

Le document 5 (Tableau III) correspond à un contexte élargi de 12 unités, puisqu'on prend en considération 15 mots avant chaque occurrence de Caesar, et 15 mots après.

Le classement des mots dont l'excédent est le plus significatif est un peu modifié, et des mots nouveaux apparaissent, deux substantifs hiberna et littera, deux verbes recipio et nuntio, un pronom sui. Ne figurent plus sur le tableau castra, equitatus, exercitus, legio, comme si en s'éloignant progressivement du cognomen du général, le vocabulaire militaire perdait peu à peu de sa prééminence. De même ont disparu adventus, is et nuntius.

Parmi les lemmes significativement absents de cet environnement de Caesar, nous ne retrouvons que deux lemmes qui figuraient déjà dans le tableau précédent, aut et homo. Deux mots nouveaux apparaissent, multitudo et tantus Curieusement ac revient après une éclipse, d'ailleurs relative, puisqu'il était toujours en déficit dans l'environnement précédent, mais avec un Chi2 de 4,86, inférieur au seuil que nous avons fixé.

Enfin et et neque disparaissent, sans doute pour les mêmes raisons que possum. Absentes au voisinage immédiat de Caesar, les deux conjonctions de coordination, très souvent utilisées dans les Commentaires, ne tardent pas à se rapprocher de leur fréquence moyenne et s'effacent de nos tableaux.

Au total, 13 lemmes apparaissent avec des excédents, 5 avec des déficits très significatifs. Ces résultats sont assez proches de ceux observés dans le tableau précédent. Au seuil de 5%, la crue est sensible, puisque 31 lemmes présentent un excédent d'occurrences (contre 21) et 28 un déficit (contre 15). Il semble que cet accroissement s'explique, comme précédemment, par le minimum imposé à l'effectif théorique. Un mot présent 22 fois dans l'ensemble de l'oeuvre peut désormais figurer sur notre tableau, alors qu'auparavant la limite était fixée à 34 occurrences.

2. 4. Tranches de 45 mots

En découpant dans le texte des Commentaires des tranches de 45 mots autour de chaque occurrence de Caesar (22 mots avant et 22 mots après), nous franchissons une nouvelle étape dans l'élargissement progressif de nos zones d'observation (Cf. document 6, Tableau IV).

17 lemmes présentent maintenant des excédents significatifs. Parmi eux nous retrouvons ad, Caesar, cognosco, discedo, facio, Haedui, hiberna, legatus, littera, mitto, nuntio et recipio.

Des lemmes nouveaux apparaissent : affero, colloquium, conspectus, Eburones, hiems, ineo. Aucun de ces mots ne disposait d'un effectif global suffisant pour pouvoir entrer dans le tableau précédent, puisque 22 occurrences étaient nécessaires pour que l'effectif théorique soit supérieur à 5. L'apparition de ces lemmes est donc liée aux contraintes particulières du test de Pearson.

Nous notons enfin que sui a disparu.

Parmi les lemmes présentant un déficit, nous ne retrouvons que deux mots, ac et aut, du précédent tableau. Homo, multitudo et tantus ont disparu. En revanche 3 lemmes nouveaux font leur apparition, magnitudo, murus, et pars.

Un lemme revient, après une courte éclipse, flumen, comme ac dans le tableau précédent. Nous avons là, semble-t-il, une illustration de l'effet de seuil. En fixant arbitrairement à 1% la limite supérieure de la probabilité des écarts que nous prenons en compte, nous écartons des lemmes qui sont tout proches de cette limite.

L'exigence d'un Chi2 très élevé a pour effet de faire basculer hors de notre sélection des lemmes dont les emplois seraient considérés comme significativement élevés, ou déficitaires, si l'on choisissait un seuil de probabilité moins rigoureux. Tous les mots que nous avons écartés reparaissent si l'on passe à une probabilité de5%, à l'exception de tantus. Ainsi flumen a disparu du tableau III, alors que le Chi2 attaché au déficit de ce lemme était de 5,24, soit une probabilité de l'ordre de 2% que l'écart observé soit l'effet du hasard. On mesure bien là l'inconvénient qu'il y a à choisir de façon trop rigide un seuil de signification. Nous proposerons plus loin une solution à ce problème.

Quant à tantus, il faudrait revenir au texte pour tenter d'expliquer pourquoi ce lemme apparaît parmi les mots en fort déficit dans les tranches de 19 mots ( déficit de 7 occurrences, correspondant à un Chi2de 5, et à une probabilité d'environ 2%) et de 31 mots ( déficit de 11 occurrences, correspondant à un Chi2de 8,22, et à une probabilité d'environ 0,5%) et disparaît tout aussi soudainement quand on élargit le champ d'investigation. De même il ne présentait pas de déficit significatif, même au seuil de 5%, dans les tranches de 9 mots.

Ce lemme illustre donc un nouveau modèle de distribution des occurrences, caractérisé par une montée progressive du déficit, suivie d'une décrue plus ou moins rapide.

Au total, pour cette dimension du contexte, 16 lemmes sont en excédent ( 36 au seuil de 5%), et 6 en déficit (36 au seuil de 5%). Notons encore une fois, sans prétendre l'expliquer, l'égalité du nombre de lemmes en excédent et en déficit, du moins au seuil de 5%.

2. 5. Tranches de 61 mots

Les tranches les plus longues que nous ayons découpées dans le texte des Commentaires atteignent 61 mots (30 mots avant Caesar, 30 mots après).

20 mots présentent des excédents significatifs. Parmi les nouveaux arrivés mentionnons dies, gratia, iniuria, reduco, oro et retineo. Affero disparaît, de même que discedo, Eburones, hiberna et recipio. Is reparaît après une longue éclipse. Chose curieuse, le pronom-adjectif avait complètement disparu des tableaux précédents et ne présentait ni excédent ni déficit significatif, même au seuil de 5%, dans les tranches de 31 et 45 mots, comme d'ailleurs dans la tranche de 9 mots. Cette alternance, absence d'excédent significatif, excédent, absence d'excédent, retour de l'excédent, est assez surprenante. Elle illustre un modèle de distribution des cooccurrences encore différent de ceux que nous avons observés jusqu'ici.

En ce qui concerne les lemmes en déficit, nous retrouvons pars, aut, magnitudo et ac. Flumen et murus disparaissent. Parmi les nouveaux venus, nous relevons trois substantifs, telum, mos et homo, qui reparaît après une éclipse liée à des Chi2 un peu en deçà du seuil que nous nous sommes fixé.

Deux pronoms-adjectifs sont également en déficit, idem et hic, ainsi qu'un cognomen, Cotta. Parmi les 15 occurrences de ce mot, une seule figure dans le voisinage de Caesar. Ici encore un retour au texte serait indispensable pour tenter d'expliquer ce déficit.

3. Essai de conclusion

Cette première analyse, si incomplète qu'elle soit, nous conduit à poser deux problèmes et à avancer quelques propositions.

3. 1. Deux problèmes

3. 1. 1. Le choix des dimensions du contexte

Les variations que nous avons observées dans la détermination des cooccurrences significatives montrent bien l'influence déterminante des dimensions du contexte.

Il paraît difficile de se limiter à un contexte déterminé une fois pour toutes. Suivant que l'on se rapproche ou que l'on s'éloigne du mot-cible, le vocabulaire qui lui est associé positivement ou négativement se modifie. Comment donc choisir les dimensions du contexte dans lequel s'effectuera la recherche des cooccurrences ?

3. 1. 2. Le choix d'un seuil de signification

Nous avons opté ici pour un Chi2élevé, correspondant à une probabilité très faible d'expliquer par le seul fait du hasard les écarts que nous avons observés. Cependant, nous avons constaté qu'il était parfois utile de prendre en compte des écarts associés à des probabilités plus fortes, jusqu'à atteindre le seuil habituel de 5%. Comment donc déterminer la valeur du Chi2qui sera retenue comme seuil de signification ?

3. 2. Une solution possible

Puisqu'il paraît difficile de déterminer à l'avance, et de façon arbitraire, aussi bien les dimensions du contexte que le seuil de signification, pourquoi ne pas relever les cooccurrences dans des contextes d'étendue variable, ainsi que nous l'avons fait ici, et mesurer chaque fois la valeur du Chi2 ?

Au delà d'un seuil convenable, de l'ordre de 5%, par exemple, cela reviendrait à utiliser la valeur du Chi2non plus comme test d'hypothèse, mais comme moyen de mesurer une distance, c'est-à-dire d'évaluer l'étendue d'un écart. On constaterait alors, pour chaque lemme, des variations dans l'importance relative des excédents et des déficits, qui permettraient peut-être d'en affiner l'interprétation.

Il est certain, en effet, que l'apparition des excédents et des déficits dépend étroitement des dimensions du contexte, et que différents types de corrélation sont possibles.

3. 3. Esquisse d'une typologie des cooccurrences significatives

Au cours de notre analyse, nous avons rencontré des lemmes dont les occurrences, au voisinage du mot-cible, semblaient suivre différents modèles de distribution.

Certains, comme et et possum, en déficit très important à proximité immédiate du mot-cible, retrouvaient très vite leur fréquence moyenne.

Peut-être s'agit-il là d'une évolution qui concerne plus particulièrement les lemmes en déficit. En effet, la plupart des lemmes en excédent dans le premier tableau, de même d'ailleurs qu'un certain nombre de lemmes en déficit, ont rejoint de façon beaucoup plus progressive une fréquence proche de la moyenne. Ainsi un mot comme legio ne montre plus d'excédent significatif à partir des tranches de 31 mots, un mot comme nuntius seulement à partir des tranches de 61 mots.

D'autres lemmes présentent, en quelque sorte, une courbe en cloche des Chi2 associés à leurs excédents ou à leurs déficits. Leur fréquence devient significativement faible ou élevée à une distance déterminée du mot-cible, puis retombe, plus ou moins vite, au dessous du seuil de signification.

Dans le cas de is, nous avons même observé une courbe bimodale, présentant deux sommets précédés, séparés et suivis par des creux.

Ces anomalies apparentes mériteraient d'être analysées de façon plus précise. Nous souhaitions ici seulement signaler leur existence, et nous nous proposons de revenir sur ces différents modèles de distribution dans une prochaine publication.

Conclusion

Il apparaît ainsi que le problème des cooccurrences significatives est finalement d'une grande complexité, et qu'il paraît difficile de le limiter à la seule association ou dissociation de deux lemmes à l'intérieur d'un contexte arbitrairement délimité. De même, lorsqu'il s'agit d'apprécier la signification de ces rapprochements ou de ces apparentes incompatibilités, il paraît dommage de limiter l'utilisation du Chi2 au seul rôle de filtre plus ou moins rigoureux.

La recherche des cooccurrences ne peut être séparée de son but ultime, à savoir des différents types d'explications que l'on pourra avancer pour tenter de rendre compte d'excédents ou de déficits significatifs.

Il est clair qu'à proximité immédiate du mot cible, des contraintes d'ordre syntagmatiques peuvent jouer un rôle important, de même que la présence de formules toutes faites, de segments répétés, comme ceux qu'a analysés A. Salem[3]. L'influence de ces éléments s'exerce généralement dans le sens d'un excédent d'occurrences. Cependant dès ce moment des choix volontaires ou inconscients de l'auteur peuvent déterminer la présence ou l'absence de cooccurrences significatives.

Lorsque la dimension du contexte s'accroît, on peut supposer que le scripteur est de moins en moins conscient de ses préférences. Sans faire intervenir nécessairement une interprétation psychanalytique, on admettra que l'association, comme la dissociation de certains mots révèle quelque chose de l'inconscient de l'auteur, en faisant apparaître des liens symboliques, ou, au contraire, des oppositions et des incompatibilités.

Ainsi un observateur attentif peut espérer reconnaître, derrière les mots qu'un auteur associe ou dissocie spontanément, des aspirations, des craintes, quelques éléments du système de valeur auquel cet auteur se réfère.

On voit bien l'intérêt que présente une telle recherche, et la nécessité de prendre en compte la distance qui sépare le mot-cible des cooccurrences éventuelles, ne serait-ce que pour faire la part des contraintes syntagmatiques, pour distinguer ce qui peut être choix délibéré, et ce qui traduit des préférences et des aversions plus ou moins inconscientes.

Dans tous les cas, cependant, le recours au texte est indispensable. Tout au long de cette première analyse, nous avons pu constater que la recherche statistique ne nous donnait que des indications souvent énigmatiques, que les pistes qu'elle nous laissait entrevoir étaient aussi prometteuses, que difficiles à explorer, que nous n'étions jamais conduits vers des conclusions immédiates et définitives.

Dans la recherche des cooccurrences significatives, comme dans d'autres domaines, la statistique lexicale a pour principal mérite d'attirer notre attention sur des phénomènes intéressants, et de nous inviter à des enquêtes complémentaires.

Début de la concordance centrée de Caesar

dans les Commentaires de la Guerre des Gaules

(d'après les documents du L.A.S.L.A. de Liège)

obsides sibi remittat quibus de rebus CAESAR a Crasso certior factus quod ipse aberat

contra Labieni castra considunt iam CAESAR a Gergouia discessisse audiebatur iam

proponit quibus angustiis ipse CAESAR a Venetis prematur docet neque longius

et gratia sed genere dispari quem CAESAR ab Diuiciaco sibi traditum ex humili

hostes potitos ciuitati renuntiauerunt CAESAR ab decimae legionis cohortatione ad

uisi ab latere nostris aperto quos CAESAR ab dextra parte alio ascensu manus

clandestina consilia efferantur ut CAESAR ab exercitu intercludatur id esse

moueret petiuerunt ne id quidem CAESAR ab se impetrari posse dixit cognouerat

Ciceronis legionis que cognoscitur CAESAR acceptis litteris hora circiter

premi uidebantur eo signa inferri CAESAR aciem que conuerti iubebat quae res et

morati eos sequi non potuissent CAESAR ad Lingonas litteras nuntios que misit

dolore exarsit his rebus constitutis CAESAR ad Portum Itium cum legionibus peruenit

Haedui de consilio legatorum quos CAESAR ad exercitum reliquerat copias

que adpetebat septimus quam ad diem CAESAR ad impedimenta legionem que reuerti

ei dediderunt quibus rebus confectis CAESAR ad oppidum Auaricum quod erat maximum

is murum hostium paene contingeret et CAESAR ad opus consuetudine excubaret milites

opere effecto exercitus traducitur CAESAR ad utramque partem pontis firmo

ne quem peditem ad conloquium CAESAR adduceret uereri se ne per insidias ab

quibus litteris circiter media nocte CAESAR adlatis suos facit certiores eos que ad

proeliis consuerant utebantur quod ubi CAESAR animaduertit naues longas quarum et

ciuitates nituntur nacti obsides quos CAESAR apud eos deposuerat horum supplicio

Gallos auctoritatis Cauarinum quem CAESAR apud eos regem constituerat cuius

nostris tempore opportunissimo CAESAR auxilium tulit namque eius aduentu

mouet in Aruernos uersus at CAESAR biduum in his locis moratus quod haec

obsidum uelit dari pollicentur cognita CAESAR causa reperit ab Suebis auxilia missa

transibant ubi per exploratores CAESAR certior factus est tres iam partes

se eorum copiis aluerunt his de rebus CAESAR certior factus et infirmitatem Gallorum

nobis cum copiis hostes contenderunt CAESAR cognito consilio eorum ad flumen T

audebant id factum ex suis hospitibus CAESAR cognouerat ille omnibus primo precibus

turres adpropinquassent ex captiuis CAESAR cognouit Vercingetorigem consumpto

Figure 1

GALLIA SVM OMNIS DIVIDO IN PARS TRES QVI VNVS INCOLO BELGAE ALIVS AQVITANI TERTIVS QVI IPSE LINGVA CELTAE NOSTER GALLI APPELLO HIC OMNIS LINGVA INSTITVTVM LEX INTER SVI DIFFERO GALLI AB AQVITANI GARVNNA FLVMEN AB BELGAE MATRONA ET SEQVANA DIVIDO HIC OMNIS FORTIS SVM BELGAE PROPTEREA QVOD AB CVLTVS ATQVE HVMANITAS PROVINCIA LONGE ABSVM PARVM QVE AD IS MERCATOR SAEPE COMMEO ATQVE IS QVI AD EFFEMINO ANIMVS PERTINEO IMPORTO PROPIOR QVE SVM GERMANI QVI TRANS RHENVS INCOLO QVI CVM CONTINENTER BELLVM GERO QVI DE CAVSA HELVETII QVOQVE RELIQVVS GALLI VIRTVS PRAECEDO QVOD FERE COTIDIANVS PROELIVM CVM GERMANI CONTENDO CVM AVT SVVS FINIS IS PROHIBEO AVT IPSE IN IS FINIS BELLVM GERO

Figure 2 : Texte réduit aux lemmes

pour l'analyse des cooccurrences

(d'après les travaux du L.A.S.L.A. de Liège)

Comparaison

-ensemble du texte

-contexte de 4 mots avant et 4 mots après Caesar

Lemmes présentant un excédent d'occurrences :

Lemme Total Fragment Théor. Ecart Khi2 Khi2 glob.

CAESAR 381 381 28,09 352,91 4434,1 4787

COGNOSCO 130 30 9,58 20,41 43,49 46,95

AD 706 99 52,05 46,95 42,35 45,72

MITTO 158 31 11,65 19,35 32,15 34,7

LEGATVS 124 26 9,14 16,85 31,08 33,55

DE 206 29 15,19 13,81 12,56 13,55

LEGIO 189 27 13,93 13,06 12,25 13,22

HAEDVI 112 17 8,26 8,74 9,25 9,98

PER 104 16 7,67 8,33 9,05 9,77

RES 391 43 28,83 14,17 6,97 7,52

PRO 79 12 5,82 6,17 6,54 7,06

Lemmes présentant un déficit d'occurrences :

Lemme Total Fragment Théor. Ecart Khi2 Khi2 glob.

ET 909 38 67,01 -29,02 12,56 13,55

AC 186 2 13,71 -11,72 10 10,79

POSSVM 302 8 22,26 -14,27 9,13 9,85

NEQVE 244 6 17,99 -11,99 7,98 8,61

Figure 3 - Tableau I

Comparaison

-ensemble du texte

-contexte de 9 mots avant et 9 mots après Caesar

Lemmes présentant un excédent d'occurrences :

Lemme Total Fragment Théor. Ecart Khi2 Khi2 glob.

CAESAR 381 381 56,79 324,2 1850,8 2175

LEGATVS 124 40 18,48 21,51 25,04 29,42

COGNOSCO 130 41 19,38 21,62 24,12 28,34

MITTO 158 47 23,55 23,44 23,34 27,42

AD 706 153 105,2 47,76 21,67 25,46

NVNTIVS 34 14 5,07 8,93 15,74 18,49

ADVENTVS 47 17 7,01 9,99 14,25 16,74

DISCEDO 49 17 7,3 9,69 12,87 15,12

HAEDVI 112 30 16,7 13,3 10,6 12,45

CASTRA 273 60 40,69 19,3 9,15 10,75

FACIO 267 56 39,8 16,2 6,59 7,74

EXERCITVS 132 31 19,68 11,32 6,51 7,65

IS 991 177 147,7 29,27 5,8 6,81

Lemmes présentant un déficit d'occurrences :

Lemme Total Fragment Théor. Ecart Khi2 Khi2 glob.

AVT 148 9 22,06 -13,07 7,73 9,08

ET 909 104 135,5 -31,5 7,32 8,6

HOMO 86 4 12,82 -8,82 6,06 7,12

FLVMEN 103 6 15,35 -9,36 5,69 6,68

NEQVE 244 22 36,37 -14,38 5,67 6,66

Figure 4 - Tableau II

Comparaison

-ensemble du texte

-contexte de 15 mots avant et 15 mots après Caesar

Lemmes présentant un excédent d'occurrences :

Lemme Total Fragment Théor. Ecart Khi2 Khi2 glob.

CAESAR 381 381 88,05 292,95 974,72 1267,7

MITTO 158 63 36,51 26,48 19,21 24,98

LEGATVS 124 52 28,66 23,34 19,01 24,72

COGNOSCO 130 53 30,04 22,95 17,54 22,81

LITTERA 22 14 5,08 8,91 15,63 20,32

FACIO 267 88 61,7 26,29 11,2 14,56

NVNTIO 29 15 6,7 8,29 10,27 13,35

DISCEDO 49 22 11,32 10,67 10,06 13,08

HAEDVI 112 41 25,88 15,11 8,82 11,47

AD 706 197 163,2 33,84 7,02 9,13

SVI 756 209 174,7 34,29 6,73 8,75

RECIPIO 75 27 17,33 9,66 5,39 7,01

HIBERNA 46 18 10,63 7,36 5,1 6,63

Lemmes présentant un déficit d'occurrences :

Lemme Total Fragment Théor. Ecart Khi2 Khi2 glob.

HOMO 86 6 19,87 -13,88 9,68 12,59

AC 186 23 42,98 -19,99 9,29 12,08

AVT 148 17 34,2 -17,21 8,65 11,25

MVLTITVDO 83 8 19,18 -11,19 6,51 8,46

TANTVS 82 8 18,95 -10,95 6,32 8,22

Figure 5 - Tableau III

Comparaison

-ensemble du texte

-contexte de 22 mots avant et 22 mots après Caesar

Lemmes présentant un excédent d'occurrences :

Lemme Total Fragment Théor. Ecart Khi2 Khi2 glob.

CAESAR 381 381 119,9 261,07 568,37 829,44

MITTO 158 77 49,73 27,26 14,95 21,81

LEGATVS 124 61 39,03 21,96 12,36 18,04

COGNOSCO 130 62 40,92 21,08 10,86 15,84

FACIO 267 114 84,04 29,95 10,67 15,57

LITTERA 22 15 6,92 8,07 9,41 13,73

NVNTIO 29 18 9,13 8,87 8,62 12,58

CONSPECTVS 17 12 5,35 6,64 8,26 12,05

HIBERNA 46 24 14,48 9,52 6,26 9,13

HAEDVI 112 50 35,25 14,74 6,16 8,99

EBVRONES 17 11 5,35 5,64 5,96 8,69

HIEMS 17 11 5,35 5,64 5,96 8,69

COLLOQVIVM 15 10 4,72 5,27 5,9 8,61

AD 706 258 222,2 35,77 5,75 8,39

INEO 20 12 6,3 5,7 5,16 7,53

AFFERO 16 10 5,04 4,96 4,89 7,13

DISCEDO 49 24 15,42 8,57 4,76 6,95

RECIPIO 75 34 23,61 10,39 4,57 6,67

VENIO 134 56 42,18 13,82 4,52 6,6

Lemmes présentant un déficit d'occurrences :

Lemme Total Fragment Théor. Ecart Khi2 Khi2 glob.

FLVMEN 103 16 32,42 -16,43 8,31 12,13

AC 186 38 58,55 -20,55 7,21 10,52

AVT 148 29 46,59 -17,59 6,63 9,67

PARS 244 56 76,8 -20,81 5,63 8,21

MVRVS 48 6 15,11 -9,11 5,49 8,01

MAGNITVDO 28 2 8,81 -6,82 5,26 7,67

Figure 6 - Tableau IV

Comparaison

-ensemble du texte

-contexte de 30 mots avant et 30 mots après Caesar

Lemmes présentant un excédent d'occurrences :

Lemme Total Fragment Théor. Ecart Khi2 Khi2 glob.

CAESAR 381 381 150,7 230,32 352,1 582,42

MITTO 158 93 62,48 30,51 14,9 24,65

COGNOSCO 130 74 51,41 22,59 9,92 16,41

FACIO 267 136 105,6 30,41 8,75 14,48

NVNTIO 29 21 11,47 9,53 7,92 13,1

HAEDVI 112 63 44,29 18,7 7,9 13,06

IS 991 445 391,9 53,09 7,19 11,89

LEGATVS 124 67 49,04 17,96 6,57 10,87

CONSPECTVS 17 13 6,72 6,27 5,86 9,69

AD 706 319 279,2 39,8 5,67 9,38

GRATIA 27 18 10,68 7,32 5,02 8,3

ORO 11 9 4,35 4,64 4,97 8,22

RETINEO 18 13 7,12 5,88 4,85 8,02

INEO 20 14 7,91 6,09 4,69 7,75

LITTERA 22 15 8,7 6,29 4,56 7,54

DIES 187 92 73,95 18,04 4,4 7,28

COLLOQVIVM 15 11 5,93 5,06 4,33 7,16

REDVCO 28 18 11,07 6,92 4,33 7,16

INIVRIA 32 20 12,65 7,34 4,26 7,04

HIEMS 17 12 6,72 5,27 4,14 6,84

Lemmes présentant un déficit d'occurrences :

Lemme Total Fragment Théor. Ecart Khi2 Khi2 glob.

TELVM 39 6 15,42 -9,43 5,75 9,51

MOS 18 1 7,12 -6,12 5,25 8,69

HOMO 86 21 34,01 -13,01 4,97 8,22

PARS 244 75 96,49 -21,5 4,78 7,91

AVT 148 42 58,53 -16,53 4,66 7,71

MAGNITVDO 28 4 11,07 -7,08 4,51 7,46

IDEM 111 30 43,9 -13,9 4,39 7,26

HIC 626 215 247,6 -32,56 4,28 7,08

AC 186 56 73,56 -17,56 4,19 6,93

COTTA 15 1 5,93 -4,94 4,1 6,78

Figure 7 - Tableau V


[1] C.I.P.L.-L.A.S.L.A., 32, place du 20-Août, B-4000,Liège, Belgique

[2] Parmi les très nombreuses recherches consacrées à ce problème, mentionnons l'article récent de Pierre Lafon, "Relations syntagmatiques, recherche des cooccurrences et segments répétés" dans Traitement informatisé de corpus textuels, textes réunis par Éveline Martin, Paris, Didier Érudition, 1994

[3] A. Salem, Pratique des segments répétés. Essai de statistique textuelle, Paris, Klincksieck, 1987, (Coll. "Saint-Cloud")


Retour