II - GALLIBASE Les jeunes auteurs qui ont écrit, sur les bancs de l’École, les lignes qui précèdent cèdent ici la place à un vétéran d’une discipline bizarre qu’on appelle lexicométrie ou textométrie ou stylométrie ou encore logométrie . Le flottement qui enveloppe sa désignation n’incite guère à lui faire confiance. Elle vise pourtant à introduire la mesure et la précision dans le domaine linguistique et littéraire et, à travers les mots, dans l’ensemble des sciences humaines. La statistique n’est jamais la démarche première. Elle vient après, quand les données ont été amassées, sans son concours, sans même qu’on songe initialement à y avoir recours. Les grandes entreprises documentaires comme le TLF, la BNF, ou Google Books se soucient avant tout d’engranger les textes et les mots pour les protéger de l’oubli, assurer leur permanence et leur sécurité, et frayer un chemin pour leur consultation. Elles ont bénéficié des techniques puissantes que l’informatique leur offre pour enregistrer, organiser, et diffuser les données. Or les mêmes calculateurs leur permettent aussi de calculer. Non sans réticence, on s’est contenté au début de la plus simple démarche arithmétique: l’addition. Gallica indique la fréquence du mot sur lequel porte l’interrogation, au moins pour avertir l’utilisateur de l’étendue du champ qui s’ouvre devant lui. S’il s’intéresse au topinambour, il apprend ainsi qu’une récolte de 7199 rhizomes s’offre à lui. Google Books présente un dénombrement semblable, à l’échelle supérieure, avec 64600 occurrences pour le même mot au singulier (encore faut-il faire une demande expresse en sollicitant le bouton idoine). Quant au TLF il fut le premier des dictionnaires à indiquer, au bas de chaque article, la fréquence du mot considéré dans l’ensemble de son corpus et aussi le pourcentage dans les sous-ensembles, ce qui suscite une comparaison et amorce déjà une démarche statistique. La fréquence absolue d’un mot et même de tous les mots d’un texte ne permet en aucune façon de le rapprocher d’un autre texte. Encore faut-il accorder la fréquence d’un mot à la taille du texte. La façon naturelle qui vient à l’esprit, c’est d’établir un rapport entre l’une et l’autre et d’appeler le résultat pourcentage ou fréquence relative. Il a fallu du temps aux entreprises documentaires pour en arriver là. Si le TLF a pu devancer les autres sur ce point, c’est parce qu’il avait un objectif précis, le dictionnaire du XXe siècle, et un corpus limité et daté qui n’a plus varié pendant la rédaction du dictionnaire. Il disposait ainsi d’un dénominateur constant. Cette suspension manquait à Google Books qui accumulait les textes dans d’énormes silos numériques, jamais stabilisés. Et c’est par une décision volontaire et extérieure1 que le flot des entrées a été arrêté provisoirement en 2009. Mais le flot n’ayant pas suspendu sa progression, il a fallu ajuster les compteurs en 2012, puis en 2019. Et c’est autant de bases différentes, incluses l’une dans l’autre comme les poupées russes, qui s’offrent à l’utilisation. La BNF a suivi le même chemin et on peut prévoir que pareil débordement guette le présent projet de Gallicagram. Mais la jeunesse et l’énergie de ses auteurs laissent espérer qu’ils sauront s’adapter. À peine ont-ils livré la première version de ce projet qu’ils songent à augmenter ses fonctions statistiques et à soumettre les données à des méthodes plus synthétiques qui traitent les tableaux et non plus les séries simples. Leur ambition va donc plus loin que le projet Ngram Viewer qui depuis douze ans propose le même logiciel à base de courbes chronologiques. Or si rien n’est plus clair qu’une courbe individuelle, rien n’est plus opaque que la multiplication des courbes, qu’elles soient enchevêtrées sur un même plan ou échelonnées dans l’espace. Et l’on s’enfonce dans l’obscurité dès que croît le nombre de mots représentés. Si certaines questions restent ponctuelles, comme la première attestation de l’expression « vote des femmes », la plupart des réponses attendues d’une base documentaire font intervenir un groupe souvent imprécis de mots ou expressions censés être en relation avec la question. La tentation est grande alors de cumuler le tout en une seule distribution globale. Mais on écrase alors les différences et les nuances, en faisant taire les minorités. Suivant en cela l’exemple de Ngram Viewer, les auteurs de Gallicagram ont voulu fixer des pierres en attente, laissant à d’autres le soin de prolonger le mur et d’exploiter plus avant les données. Mais plus généreux que leurs prédécesseurs, ils proposent un fichier où toutes les informations utiles sont rassemblées : soit, pour chaque mot de la série, non seulement les pourcentages mais aussi les fréquences absolues et la taille du sous-ensemble, si bien qu’on peut vérifier ces pourcentages.2 On peut aussi contrôler dans la source même la présence du mot, le lien à Gallica ayant été conservé, même s’il en coûte quelques centaines d’octets pour chaque citation (ils ont été tronqués sous la rubrique « url » dans l’exemple ci-dessous). Le détail des métadonnées reproduit le choix fait par l’utilisateur au moment de l’interrogation : les cinq dernières se répètent d’une ligne à l’autre et n’ont pas d’incidence sur le tableau, qui est construit en croisant les variables « date »  (la colonne) et « mot » (la ligne) et en inscrivant la variable « count » (la fréquence absolue) à l’intersection. Reste la variable « base » qu’il faut enregistrer dans le total marginal des colonnes et qui servira à établir les probabilités. "date","count","base","ratio","mot","url","resolution","corpus","langue","bibli","search_mode" "1788/01",426,608519,0.000700060310360071,"jour","https://gallica.bnf.fr/.........","Mois","Presse","Français","Gallica","N-gramme" Ce formatage paraît un peu lourd et redondant. Mais il fallait tenir compte de la variété des disciplines et d’une très grande multiplicité de sources nationales, étrangères, régionales, chacune répondant à sa façon et à son rythme aux sollicitations. Cependant, là où Gallicagram se trouvait seul en cause, avec la pleine maîtrise des données, un processus plus rapide a été ménagé. Dans cette procédure il n’est plus besoin d’interroger le site en mode conversationnel, et de remplir une à une les cases du protocole. Un automate sous forme d’API délivre immédiatement la réponse pourvu que la requête qu’il reçoit ait le format requis. Il reste néanmoins à l’utilisateur le soin de respecter ce format et de préciser ce qu’il veut, Mais la tâche est beaucoup plus simple que précédemment : la requête Python ci-dessous n’a plus que cinq paramètres à fournir, dont certains, fonctionnant pas défaut, peuvent être omis,  : 1 - le mot ou expression recherché, 2 - le corpus intéressé, 3 - la date de départ, 4 - la date d’arrivée et 5 - la mesure du temps : année ou mois. C:\HYPERBAS\python26\python.exe C:\HYPERBAS\python26\pyllicagram.py "droit des animaux" -c lemonde -d 2007 -f 2018 -r mois Pareillement le résultat renvoyé par l’automate (dans un fichier qui porte toujours le même nom : results.csv) est d’une grande lisibilité. Encore pourrait-il être plus sobre en supprimant le ratio, dont le logiciel n’a pas besoin. gram annee mois jour n total ratio droit des animaux 2007 06 30 1 1450024 6.89643757621e-07 droit des animaux 2007 07 31 0 1167213 0.0 droit des animaux 2007 08 31 0 1011914 0.0 droit des animaux 2007 09 30 3 1329240 2.25692877133e-06 En réalité l’utilisateur n’a pas à connaître ces détails techniques s’il se sert du logiciel GALLIBASE, dont voici la porte d’entrée : Cet écran initial s’emploie à fournir les instructions élémentaires, les adresses des pages principales et le lien vers quelques exemples variés. On y insiste surtout sur la nécessité de choisir une des deux procédures qu’on vient d’évoquer, soit l’accès au site de Gallicagram, soit l’envoi direct d’une requête à l’API Pyllicagram. Dans les deux cas, on est conduit à la même page, où le choix peut encore être inversé grâce au bouton « Choisir la liaison ». Pour décider entre la consultation du site de Gallicagram ou l’utilisation de l’API Pyllicagram, il faut savoir que la première option convient dans tous les cas et que la seconde est réservée à trois corpus : Gallica Livres, Gallica Presse et journal Le Monde. Ces trois corpus sont heureusement les meilleurs, étant plus sûrs (surtout Le Monde), plus étendus, et plus rapides. On peut passer d’une procédure à l’autre dans la même séance, à condition que les paramètres de sélection soient rigoureusement les mêmes. Tant que ces paramètres ne varient pas, les mots ou expressions peuvent être ajoutés à la série en cours par une nouvelle requête. La suppression est également possible : il suffit de cliquer sur le mot indésirable. On a prévu aussi les regroupements partiels ou la totalisation entière. Dès que le tableau a plus de trois colonnes et plus de trois lignes, il devient exploitable. Mais les leçons qu’on en attend seront plus riches si son assise est plus large. En particulier la largeur d’un écran n’étant pas infinie, on ne doit pas outrepasser 200 colonnes. En cas de dépassement, les tranches chronologiques regrouperont 2, 3, n colonnes. La ressource de l’ « ascenseur » permet d’étendre autant qu’on veut le nombre de lignes. Mais là aussi on risque de rencontrer des limites dans la taille du tableau et de toute façon la lecture des résultats de l’analyse est embrouillée quand trop de points s’y trouvent et s’y recouvrent.3 L’image représentée ci-dessous ne représente qu’une vue partielle de l’écran , lequel ne peut contenir lui-même qu’un tiers d’un tableau réunissant les plus fréquents des mots en isme4. L’enquête est menée dans le journal Le Monde de 1945 à 2018. Le champ exploré recouvre 1,4 milliard de mots, soit plus de 20 millions par an. C’est, raconté par une certaine presse, le récit de la bataille idéologique qui s’est livrée en France et dans le monde entre la seconde guerre mondiale et la guerre de l’Ukraine. Mais avant de déployer la carte d’état-major, où évoluent les bataillons, utilisons la longue-vue pour fixer quelques positions. Par exemple le marxisme, longtemps dominant, s’écroule avec la chute du mur de Berlin5. Le mot marxisme dans Le Monde de 1945 à 2018 Dans un tableau voué à l’exploration statistique, lignes et colonnes ont le même statut et sont en principe réversibles6. Cela autorise à faire un zoom sur une colonne. Nul ne sera surpris de voir la mêlée fort agitée en 1968, marxisme et communisme combattant au premier rang. Courbe d’une colonne : l’année 1968 Ce n’est pourtant pas en 68 que culmine le débat idéologique. Lorsqu’on réunit dans une même courbe cumulative toutes les séries particulières, on obtient comme un cardiogramme gardant la trace des éruptions politiques et morales du siècle. La première poussée de fièvre coïncide avec la guerre d’Algérie et la crise de Cuba, puis de 1973 à 1992 le débat s’envenime de crise en crise (pétrole, Viet Nam, guerre du Golfe, mur de Berlin , Bosnie). La guerre des mots s’apaise un moment pour reprendre avec les attentats du 11 septembre 2001 et la guerre d’Irak. Puis le feu semble s’éteindre jusqu’à la dernière année prise en compte, avant le Covid et l’Ukraine7. Courbe cumulative de 44 mots en isme (un demi-million d’occurrences) On en vient enfin à l’analyse factorielle qui n’offre pas une somme ou un résumé, comme le graphique précédent, mais une synthèse où lignes et colonnes sont invitées à prendre place sur un plan selon qu’elles partagent des goûts communs (ou des répulsions partagées) avec les autres invités. On n’a jamais pratiqué cette méthode pour répartir les places à l’assemblée nationale non plus qu’à l’ONU car le calcul est trop compliqué et chaque représentant se trouverait interdit sur le seuil. Ce n’est pas le lieu ici d’en développer les tenants et aboutissants. Un exemple suffira à illustrer son principe et ses vertus. On choisira l’analyse factorielle de correspondance, de Jean-Paul Benzécri, parce que sa pratique est très répandue en France et qu’elle convient admirablement à la statistique linguistique. Les fréquences constituent en effet un matériau facile à amasser, à isoler, à trier, et à manipuler sans grande dépense8. L’analyse qui suit repose sur près de 500000 unités lexicales dans une urne qui en contient 1,4 milliard . Jamais un laboratoire médical n’a disposé d’autant de données. Nul besoin de traitement préalable ou d’affinage spécifique : la méthode préfère les fréquences brutes9, car elle peut alors assembler ou diviser les lignes ou les colonnes sans changer le résultat global. Et surtout elle réunit dans la même figure les unes et les autres en donnant un sens à leur voisinage ou à leur éloignement. Analyse factorielle des mots en isme (fréquences absolues). Ce qui frappe d’entrée de jeu c’est le mouvement en croissant qui ordonne les années de la droite vers la gauche. On a ajouté la couleur après coup pour que l’œil distingue la suite des années, à travers un camaïeu qui passe progressivement du rouge au bleu . Sur cet arc viennent se greffer les mots selon la période où ils sont le plus souvent employés. Nationalisme, patriotisme et aussi communisme sortent grandis de la guerre au moment où le colonialisme doit affronter les indépendances. Suit une période dominée par les pôles opposés de la pensée religieuse et philosophique (catholicisme, protestantisme, panthéisme, paganisme, spiritualisme, humanisme, matérialisme, rationalisme scepticisme, positivisme, déterminisme, empirisme). Avant de franchir l’axe vertical et le passage au 21ème siècle les dernières années du 20ème se préoccupent plutôt des questions sociales et économiques (marxisme, libéralisme, capitalisme, pluralisme). La boucle se ferme à gauche avec une violence plus nettement politique (racisme, terrorisme, islamisme, antisémitisme) qui caractérise la dernière décennie. On conviendra que les notions abstraites ne se prêtent pas toujours à des distinctions franches et que l’analyse factorielle ne peut pas savoir ce que chacun met dans des mots dont le contour est flou. Il en va autrement lorsque l’analyse porte sur des objets précis dont les frontières, même contestées, sont nettes, par exemple les noms de pays. Quand le nom d’une nation est évoqué dans la presse, c’est généralement parce qu’il s’y passe quelque chose et que l’événement mérite une mention. On peut donc lire l’histoire dans le miroir de la géographie. Reprenons notre corpus du Monde, cette fois en y ajoutant les dernières années. La carte ci-dessous, que dessine l’analyse arborée, relève les points chauds du globe dont la presse fait état, Elle donne l’impression d’une carte des volcans, comme si les mouvements humains obéissaient à une tectonique des plaques. Il faut comprendre que l’automate n’a aucune connaissance géographique. S’il met ensemble certains pays comme le Maroc, l’Egypte, l’Algérie, la Tunisie, la Lybie dans la branche gauche de la figure, c’est parce que des événements s’y sont produits en même temps, sans doute par contagion. L’automate les découvre voisins dans le temps sans savoir qu’ils le sont dans l’espace. D’autres lignes de fracture apparaissent sur la même branche, mêlant les continents : l’Europe: ( Hongrie, Pologne, et Roumanie), l’Amérique du Sud (Argentine , Chili), l’Afrique (Tchad, Angola), l’Asie (Cambodge, Vietnam, Formose). Cet agrégat cesse de paraître incohérent quand on aperçoit les Etats-Unis au bout de la chaîne10. À l’autre bout de l’axe se dresse l’URSS, et les pays voisins (Russie, Ukraine, Serbie, Slovaquie, Kosovo). De ce côté aussi se trouvent les lieux explosifs où les armes parlent (Afghanistan, Pakistan, Iran, Corée, Kénya, Colombie) et les pays émergents qui attendent leur tour (Brésil, Mexique, Inde, Chine). Quant à l’Europe elle est à l’écart, à mi-chemin des deux extrêmes, avec un embranchement qui sépare le sud et le nord. L’activité volcanique y est faible sinon quelque temps en Irlande et en Espagne. Analyse arborée des noms de pays dans le Monde, de 1945 à 1921 (les lignes du tableau) Alors que l’analyse factorielle explicite en même temps les lignes et les colonnes, l’analyse arborée agit séparément. Le graphique précédent rendait compte des lignes, c’est-à-dire des mots relevés dans le discours, celui qui suit est relatif aux colonnes, aux années où les mots ont été relevés. On voit bien qu’un lien de proximité unit les années consécutives : tout événement qui dure déborde d’une année sur l’autre. Et l’on attend une chaîne régulièrement ordonnée de 1945 à 2021. Or l’orientation générale est bien celle qu’on attend et chaque année tend la main à sa voisine chronologique. Mais il y a des ruptures, des nœuds où pendent des sous-chaînes. On laisse à un historien véritable le soin de comprendre et d’expliquer cette périodisation de l’histoire proposée par le calcul11. Analyse arborée des noms de pays dans le Monde, de 1945 à 1921 (les colonnes du tableau) Ce n’est pas par hasard que nous avons choisi nos deux exemples dans le corpus du journal Le Monde. Car il couvre la période la plus récente, celle que le corpus de presse de Gallica, embarrassé par le copyright, ne peut explorer pleinement. Rien n’empêche pourtant d’enregistrer les textes contemporains, s’il s’agit de distribuer des informations statistiques. Mais les responsables de la BNF, sachant que la diffusion du texte, même partielle, ne pourrait être pleinement légale, ont préféré réserver les lourds investissements de la saisie et du traitement là où le champ était libre. Les corpus Monde et Gallica Presse sont heureusement complémentaires et peuvent satisfaire les historiens modernes aussi bien que les contemporains, sans parler des sociologues et des linguistes à qui ces données ouvrent enfin de belles perspectives. On peut aussi considérer que les corpus Gallica Livres et Ngram Viewer se complètent utilement : on trouvera dans la seconde les données récentes qui manquent dans la première. Et même dans les périodes qui leur sont communes, ils ne font pas doublon, leur catalogue est différent et l’on peut trouver dans le plus petit des exemples qui ne sont pas dans le grand. Au reste Gallicagram offre un passage gracieux à son concurrent12. Gallicagram offre aussi une visibilité nouvelle et un débouché à une pléiade de bibliothèques dont les services étaient jusqu’ici méconnus. Certaines viennent de la francité belge, québécoise ou suisse, beaucoup d’autres de la province. Leur contenu est varié : presse locale, recherche scientifique, archives audiovisuelles et même chansons. Il est parfois difficile de recevoir et de comprendre leur message car ils ne sont pas indexés au niveau des N-grammes, c’est-à-dire des chaines de 1 à 3 mots, et l’on n’a souvent qu’un faible repérage au niveau des pages ou des documents. Les recherches sont alors beaucoup plus lentes, par balayage des textes, et les résultats statistiques restent moins précis et moins sûrs13. Certains corpus (surtout de presse) ont une granularité fine, qui tient compte des mois, des semaines ou des jours. Le nombre de colonnes peut alors dépasser les limites raisonnables d’un tableau. Dans une telle situation le programme opère des regroupements de 2, 3, n colonnes, afin d’assurer la lisibilité des graphiques et de ne pas encombrer exagérément l’espace dans les représentations factorielles ou arborées. Ceux qui s’intéressent à ces bases spécialisées seront heureux qu’on leur épargne le voyage et les contraintes de la consultation sur place. Ils auront la patience d’attendre quelques minutes avant de recevoir le fichier attendu. Ces sources lointaines sont souvent mal documentées et Gallicagram ne fournit pas toujours a priori la distribution de leur catalogue dans le temps. Quelques essais seront nécessaires pour en prendre la mesure. En conclusion on doit s’interroger sur l’avenir de l’entreprise dont nous venons de rendre compte. Ici il faut distinguer Gallicagram et Gallibase. Le second logiciel n’est là que pour montrer la voie et son existence est transitoire: c’est Gallicagram qui devra proposer l'analyse arborée et l'analyse factorielle dans son propre logiciel. Mais l’expérience montre que la statistique fait peur aux populations littéraires. Les courbes sont acceptées mais les tableaux provoquent incompréhension et réticence. Depuis douze ans le site Ngram Viewer ne propose rien d’autre que des courbes et Frantext a même cessé d’en produire : dans sa nouvelle présentation la statistique ne s’applique plus aux mots mais aux textes et le mot « fréquence » a disparu. Notre logiciel THIEF (Truchement Hypertexte pour l’Interrogation et l’Exploitation de Frantext) s’est trouvé orphelin et ne fonctionne plus qu’en mode local. De la même façon la base GOOFRE2.EXE qui exploite les données de Google Books est assujettie à l’API de Ngram Viewer. Cet API n’est pas toujours disponible et il arrive que son format change, imposant une conversion à ceux qui suivent. Les outils statistiques proposés dans cette présentation sont d’une grande simplicité quand on les compare à l’extrême sophistication des méthodes qui fouillent internet et exploitent les données souvent futiles mais utiles qu’on y trouve. La BNF, héritière du Trésor de la Langue Française14, offre un profit supérieur  aux moteurs de recherche: « un trésor est caché dedans ». 1 Cette dans le milieu universitaire, à Havard, qu’est né ce projet, à l’initiative de Jean-Baptiste Michel (et alii). 2 Ngram Viewer ne délivre que les fréquences relatives laissant à l’utilisateur le soin de reconstituer les effectifs absolus à partir des effectifs globaux de chaque année, lesquels sont enregistrés dans des fichiers à part. Cela est un frein majeur pour les utilisateurs peu aptes au traitement informatique. C’est pourquoi nous avions réalisé une base qui pour le français s’est chargée de réaliser tous les téléchargements nécessaires, non seulement pour le total de chaque année, de 1800 à 2000, mais aussi pour chacun des unigrammes (c’est-à-dire les mots individuels). Cette base, nommée GOOFRE2.tbk, fonctionne en mode local mais aussi on line, avec ou sans le recours à l’API de Ngram Viewer. Elle est incorporée au logiciel HYPERBASE, téléchargeable sur le site ancilla.unice.fr. 3 L’écran varie à peine quand on inverse la procédure : seuls changent les boutons du haut de l’écran dans la partie droite. Deux boutons suffisent dans le mode Gallicagram le premier, APPEL, pour se mettre en rapport avec le site et le second TRANSFERT pour désigner le fichier résultat que le site a renvoyé (généralement dans le répertoire « Téléchargement »  de l’utilisateur). Dans le mode Pyllicagram les boutons en rouge sont découverts pour faire les choix correspondants. Le bouton APPEL s’y trouve aussi pour lancer la requête et récupérer le fichier des résultats lequel est toujours déposé au même endroit (dans le répertoire C:\HYPERBAS\) et sous le même nom (results.csv). 4 Les mots à qui le suffixe est étranger, comme prisme, ont été rejetés. Le mot traumatisme où le suffixe est présent aurait dû être éliminé, car il représente une réalité, loin de tout débat ou système de pensée. 5 Le graphique, qui s’abstient de tout lissage, est fondé sur l’écart réduit et relève de la loi normale. Contrairement aux pourcentages, l’écart réduit donne une assurance sur les observations. Lorsque sa valeur dépasse +2 (ou -2 en cas de déficit), le hasard n’a que 5 chances sur 100 de produire le résultat observé. Dans tous les graphiques cette zone incertaine autour de la moyenne est délimitée par des pointillés. On voit que le marxisme est au-delà de cette limite, soit dans l’excédent, avant 1988, soit dans le déficit, après 1992. En outre un coefficient de corrélation chronologique confirme la réalité de l’évolution : sa valeur -0,606 est très largement au-delà du seuil de 5 % (0,22 pour une série de 74 unités ). 6 Ce n’est pas tout-à-fait vrai dans le cas présent parce que l’ordre a du sens dans la chronologie des colonnes – ce qui permet le calcul de corrélation – alors que le classement des lignes (alphabétique ou selon la fréquence) est indifférent et sans signification. 7 Rappelons que le corpus exploité ici est constitué d’articles d’un journal quotidien. Le lien que nous posons entre les débats et l’actualité serait moins étroit s’il s’agissait de livres. 8 Il y a soixante ans Pierre Guiraud disait déjà : « La linguistique est la science statistique type ; les statisticiens le savent bien ; les linguistes l’ignorent encore. » Problèmes et méthodes de la statistique linguistique, Reidel, Dordrecht, 1959. 9 Elle ne répugne pas à traiter les données pondérées, par exemple les fréquences relatives. Dans le cas des écarts réduits qui peuvent être négatifs, un traitement supplémentaire est nécessaire, assuré par notre logiciel, pour les transférer en zone positive, sans changer les distances. 10 On y voit aussi Israël. 11 On a mis en rouge la première année de chaque période. 12 Si l’on fait un décompte des initiatives françaises, soit 47 milliards de mots pour Gallica presse, 16 pour Gallica livres et 1,4 pour Le Monde, le total se rapproche de celui du corpus de Google Books, que l’on peut estimer à 90 milliards pour le domaine français. 13 Il ne s’agit plus alors de fréquence à proprement parler, mais de répartition. Les pourcentages et les calculs n’ont plus le même sens. Il faudra se méfier de l’interférence de la fréquence dans les relevés de répartition ; ainsi les mots d’usage courant peuvent se trouver dans tous les documents, avec un pourcentage de 100%, sans qu’on puisse les distinguer les uns des autres. 14 Les milliers de textes qui avaient été saisis pour la rédaction du TLF ont été transmis à la BNF au moment où commençaient les travaux d’océrisation . --------------- ------------------------------------------------------------ --------------- ------------------------------------------------------------