HYPERBASE
logiciel documentaire et statistique pour l’exploration des textes

Présentation Générale

  • Historique

Hyperbase est né en 1989, à l’occasion du Bicentenaire de la Révolution française, pour répondre à une proposition du Centre Pompidou, et mettre à la disposition du public les textes relatifs à la Révolution. En réalité les fonctions documentaires et statistiques qui sont mises en œuvre dans ce logiciel reprenaient, dans un langage objet, des programmes antérieurs écrits par Etienne Brunet dans des langages procéduraux, initialement en PL1 dès 1970, puis en Cobol, Pascal ou Basic, selon la disponibilité des machines de l’époque. Hyperbase est ainsi l’un des plus anciens parmi les logiciels hypertextuels et/ou statistiques disponibles sur le marché français : LEXICO d’A. Salem, SPHINX d’Y. Baulac, ALCESTE de Max Reinert, CORDIAL de la société Synapse, WEBLEX de S. Heiden, SPAD-T de Lebart, INTEX de Maurice Gross, TROPES de la société Acetic.

  • Objectif

Comme les logiciels précités, Hyperbase permet de réaliser des bases hypertextuelles avec les textes qu’on lui fournit (en mode ASCII, mais il peut aussi convertir les textes présentés en XML ou HTML). Le programme d’exploitation répond aux besoins classiques du traitement automatique des textes : index sélectifs ou systématiques, dictionnaires des fréquences, concordances, sélection de contextes élargis, cooccurrences, recherche des parties ou groupes de mots. Hyperbase se distingue toutefois des produits traditionnels par une orientation statistique. Une comparaison est faite avec le corpus du Trésor de la langue française. Une autre, interne, met en relation les textes de la base, ce qui engendre des courbes, des listes de spécificités, des analyses factorielles et des mesures diverses appréciant la richesse lexicale, l’évolution du vocabulaire, la distance ou connexion des textes, la coloration thématique, etc. En particulier parmi les techniques multidimensionnelles, Hyperbase offre une approche originale qu’on ne trouve pas ailleurs : l’analyse arborée, développée au laboratoire par Xuan Luong.

  • Réalisations

Certaines des bases réalisées sont purement statistiques, notamment la base ECRIVAINS, qui compare tout le vocabulaire de 70 écrivains de la littérature française (55 millions de mots), la base CHRONO qui permet de suivre l’évolution du vocabulaire littéraire de 1600 à nos jours (117 millions de mots), et la base FRANCIL (enquête sur le français parlé et écrit dans les pays francophones, 4,5 millions de mots). Les autres donnent accès, non seulement aux données quantitatives, mais aussi au texte même, quand le problème du copyright ne se pose pas. Il s’agit alors de monographies, intégrales la plupart du temps, par exemple Rabelais, La Fontaine, Molière, Corneille, Racine, Pascal, Marivaux, Rousseau, Chateaubriand, Balzac, Hugo, Flaubert, Maupassant, Zola, Baudelaire, Rimbaud, Verlaine, Proust, etc., soit une vingtaine d’écrivains majeurs. Quand les garanties de confidentialité sont données, d’autres bases peuvent être transmises qui mettent en jeu le copyright. Cela concerne Céline, Eluard, Saint-John Perse, Gracq, Mammeri, Chraibi, Dib, la littérature algérienne, le roman africain, Brel, etc.). Enfin, depuis l’élargissement du champ d’investigation au domaine politique, plusieurs bases politiques (pour la plupart disponibles sur le site Politext du laboratoire) ont été crées : Blum, Thorez, Flandin, Tardieu, de Gaulle, Pompidou, Giscard, Mitterrand, etc.

Hyperbase utilise la technique classique de l’indexation et s’affranchit des limites de la mémoire centrale (où d’autres logiciels doivent trouver la place pour contenir le texte entier). Voué ainsi au traitement des gros corpus, il a été appliqué à des textes de très grande ampleur : le journal Le Monde, le journal portugais Publico, l’Encyclopédie Encarta, et dernièrement l’intégrale de la revue Europe, grosse de 60 millions de mots. Au total les textes qu’Hyperbase a traités au laboratoire représentent une masse équivalente à celle que Gallica propose en mode texte, soit 1500 titres, et la moitié de Frantext.

  • Variantes

Hyperbase s’efforce d’allier la souplesse à la puissance : des bases particulières, dont le code et les fonctions ont été adaptés à des données spécifiques, ont été réalisées. Ainsi est né le CD de littérature latine, réalisé par Sylvie Mellet à partir des données du LASLA de Liège, ou le CD de littérature algérienne réalisé par Marie Virolle. De même, il existe une version portugaise d’Hyperbase, avec des textes juridiques et littéraires réunis par Carlos Maciel pour son projet PORTEXT. Si la version standard peut traiter n’importe quelle langue utilisant l’alphabet occidental, elle ne propose un dictionnaire de référence que pour le français, l’anglais, l’allemand, l’espagnol, l’italien et le portugais. D’autres versions spéciales ont été réalisées, par exemple pour des données structurées et dictionnairiques, pour des textes alignés et bilingues, pour des données multimédia, mêlant le texte et l’image, enfin pour une diffusion sur Internet ; deux bases, l’une sur Rabelais et son temps (site dynamique), l’autre sur l’ensemble de la Comédie humaine de Balzac (site statique), sont disponibles en ligne (quelques images de cette dernière base ont été montrées sur France 2 dans l’émission de Bernard Pivot, le 27 oct. 2005). Parfois les nécessités du commerce ont imposé une limitation des fonctions, et c’est le cas des cédéroms Rimbaud, Pascal et Proust que Champion Electronique a intégré dans son catalogue.

Hyperbase polyglotte et lemmatisé : mais surtout, à côté de la version standard, Hyperbase propose désormais une version pour données étiquetées et lemmatisées (préalablement soumises au lemmatiseur du commerce Cordial ANALYSEUR pour le français). S’il s’agit de textes anglais, allemands, espagnols ou italiens, le logiciel est adapté aux données traitées par le lemmatiseur TreeTagger. Appliqués à de telles données, les traitements documentaires et statistiques s’étendent non plus seulement au seul lexique, mais à la composition grammaticale, aux structures syntaxiques, au style et à la sémantique. Il s’agit là de l’atout principal d’Hyperbase par rapport aux logiciels classiques de lexicométrie.

Dans ce cadre de l’optimisation du logiciel, précisons pour finir qu’on s’emploie régulièrement à implémenter des fonctions nouvelles, parfois originales, parfois empruntées aux publications ou découvertes extérieures (par exemple l’étude récente en octobre 2005 des séquences et de la topologie, inspirée des travaux de Pierre Lafon et de Max Reinert, ou celles plus récentes encore au printemps 2008 sur les co-occurrences inspérées des travaux de Serge Heiden ou de Jean-Marie Viprey).

  • Communauté d’utilisateurs

Hyperbase est à l’origine destiné aux analyses de contenu, domaine commun aux littéraires, aux linguistes, aux historiens, aux philosophes dont la matière première est le texte. Des sociologues, des psychologues, voire des instituts de sondages utilisent également Hyperbase pour l’analyse des enquêtes en texte libre ou des études de marché. Précisons enfin que le logiciel fonctionne sous environnement Windows (la version Mac n’est malheureusement plus disponible jusqu’à nouvel ordre, et les cédéroms fournis ne sont donc plus bistandard). Le prix de vente étant modulable selon le nombre de licences commandées, il est répandu assez largement dans le monde de la recherche et est enseigné dans plusieurs universités de France et du Canada.

  • Perspectives

Conçu il y a longtemps pour le standard Apple, puis développé pour Windows, la version historique d’Hyperbase était difficile à maintenir : son code n’était pas le même sur les deux plateformes. En outre son intégration à Internet n’était pas suffisante. Enfin, l’âge de son créateur, ainsi que le langage propriétaire dans lequel il a été écrit offraient peu de garantie de maintenance et de développement. C’est pourquoi une refonte du logiciel Hyperbase a été confiée au Service Informatique du laboratoire BCL, afin d’améliorer la modularité du logiciel et sa transportabilité sur Internet ; les priorités principales étant la réécriture de l’application dans des langages supportant les technologies du web (php, java, javascript), et ce dans le respect des standards informatiques actuels (imports / exports aux formats XML et TEI ; encodage Unicode des caractères, afin de pouvoir traiter des langues non-indoeuropéennes et/ou rédigées dans d’autres alphabets que l’alphabet latin).

 

Produits disponibles en téléchargement ou en ligne

  • BALZAC : Accès hypertextuel à la quasi totalité de la Comédie Humaine.

Pour toute commande du logiciel HYPERBASE, s’adresser à l'auteur Etienne Brunet.