Pour toute
information relative au logiciel HYPERBASE, s’adresser à l'auteur Etienne Brunet.
·
Historique
Hyperbase est né en
1989, à l’occasion du Bicentenaire de la Révolution française, pour répondre à
une proposition du Centre Pompidou, et mettre à la
disposition du public les textes relatifs à la Révolution. En réalité les
fonctions documentaires et statistiques qui sont mises en œuvre dans ce logiciel
reprenaient, dans un langage objet, des programmes antérieurs écrits par Etienne
Brunet dans des langages procéduraux, initialement en PL1 dès 1970, puis en
Cobol, Pascal ou Basic, selon la disponibilité des machines de l’époque. Hyperbase est ainsi l’un des plus anciens parmi les
logiciels hypertextuels et/ou statistiques disponibles sur le marché
français : LEXICO d’A. Salem, SPHINX
d’Y. Baulac, ALCESTE de
Max Reinert, CORDIAL de la société Synapse,
WEBLEX
de S. Heiden, SPAD-T de Lebart,
INTEX de Maurice Gross,
TROPES de la
société Acetic.
·
Objectif
Comme les logiciels précités, Hyperbase
permet de réaliser des bases hypertextuelles avec les textes qu’on lui fournit
(en mode ASCII, mais il peut aussi convertir les textes présentés en XML ou
HTML). Le programme d’exploitation répond aux besoins classiques du traitement
automatique des textes : index sélectifs ou systématiques, dictionnaires
des fréquences, concordances, sélection de contextes élargis, cooccurrences,
recherche des parties ou groupes de mots. Hyperbase
se distingue toutefois des produits traditionnels par une orientation
statistique. Une comparaison est faite avec le corpus du Trésor de la langue
française ou avec le corpus français de Google Books. Une autre, interne,
met en relation les textes de la base, ce qui engendre des courbes, des listes
de spécificités, des analyses factorielles et des mesures diverses appréciant
la richesse lexicale, l’évolution du vocabulaire, la distance ou connexion des
textes, la coloration thématique, etc. En particulier parmi les techniques
multidimensionnelles, Hyperbase offre une approche
originale qu’on ne trouve pas ailleurs : l’analyse
arborée, développée au laboratoire par Xuan
Luong.
·
Réalisations
Certaines des bases réalisées sont purement statistiques, notamment
la base ECRIVAINS, qui compare tout le vocabulaire de 70 écrivains de la
littérature française (55 millions de mots), la base CHRONO qui permet de
suivre l’évolution du vocabulaire littéraire de 1600 à nos jours (117 millions
de mots), et la base FRANCIL (enquête sur le français parlé et écrit dans les
pays francophones, 4,5 millions de mots). Les autres donnent accès, non
seulement aux données quantitatives, mais aussi au texte même, quand le
problème du copyright ne se pose pas. Il s’agit alors de monographies,
intégrales la plupart du temps, par exemple Rabelais, La Fontaine, Molière,
Corneille, Racine, Pascal, Marivaux, Rousseau, Chateaubriand, Balzac, Hugo,
Flaubert, Maupassant, Zola, Baudelaire, Rimbaud, Verlaine, Proust, etc., soit
une trentaine d’écrivains majeurs. Avec certaines restrictions dues au respect
du copyright, d’autres bases peuvent être transmises qui mettent en jeu des
auteurs contemporains : Aragon, Breton, Dib, Eluard, Giraudoux, Gracq, Le Clézio, Mammeri, Malraux, Mauriac, Saint-John Perse, etc.).
Enfin, depuis l’élargissement du champ d’investigation au domaine politique,
plusieurs bases politiques (pour la plupart disponibles sur le site Politext du laboratoire) ont été créées : Blum,
Thorez, Flandin, Tardieu, de Gaulle, Pompidou, Giscard, Mitterrand, etc.
Hyperbase utilise la technique classique de
l’indexation et s’affranchit des limites de la mémoire centrale (où d’autres
logiciels doivent trouver la place pour contenir le texte entier). Voué ainsi au
traitement des gros corpus, il a été appliqué à des textes de très grande
ampleur : le journal Le Monde, Le
Monde Diplomatique, le journal portugais Publico,
l’Encyclopédie Encarta,
l’intégrale de la revue Europe,
grosse de 60 millions de mots. Au total les textes qu’Hyperbase
a traités au laboratoire représentent le tiers de Frantext.
·
Variantes
Hyperbase s’efforce
d’allier la souplesse à la puissance : des bases particulières, dont le
code et les fonctions ont été adaptés à des données spécifiques, ont été
réalisées. Ainsi est né le CD de
littérature latine, réalisé par Sylvie
Mellet à partir des données du LASLA de
Liège, ou le CD de littérature
algérienne réalisé par Marie Virolle.
De même, il existe une version portugaise d’Hyperbase,
avec des textes juridiques et littéraires réunis par Carlos
Maciel pour son projet PORTEXT. Si la version restreinte
peut traiter n’importe quelle langue utilisant l’alphabet occidental, elle ne
propose un dictionnaire de référence que pour le français, l’anglais, l’italien
et le portugais. D’autres versions spéciales ont été réalisées, par exemple
pour des données structurées et dictionnairiques, pour des textes alignés et
bilingues, pour des données multimédia, mêlant le texte et l’image, enfin pour
une diffusion sur Internet ; deux bases, l’une sur Rabelais et son temps (site
dynamique), l’autre sur l’ensemble de la Comédie humaine de
Balzac (site statique), sont disponibles en ligne. Parfois les
nécessités du commerce ont imposé une limitation des fonctions, et c’est le cas
des cédéroms Rimbaud, Pascal et Proust que Champion Electronique a
intégrés dans son catalogue.
Mais
surtout, à côté de la version restreinte, Hyperbase
propose désormais une version pour données étiquetées et lemmatisées
(préalablement soumises au lemmatiseur du commerce Cordial ANALYSEUR pour le français). On peut aussi
choisir le lemmatiseur TreeTagger
et cette solution s’impose s’il s’agit de textes anglais, allemands, espagnols
ou italiens. Appliqués à de telles données, les traitements documentaires et
statistiques s’étendent non plus seulement au seul lexique, mais à la
composition grammaticale, aux structures syntaxiques, au style et à la
sémantique. Il s’agit là de l’atout principal d’Hyperbase
par rapport aux logiciels classiques de lexicométrie.
Dans ce
cadre de l’optimisation du logiciel, précisons pour finir qu’on s’emploie
régulièrement à implémenter des fonctions nouvelles, parfois originales,
parfois empruntées aux publications ou découvertes extérieures (par exemple
l’étude récente en octobre 2005 des séquences et de la topologie, inspirée des
travaux de Pierre Lafon et de Max Reinert,
ou celles plus récentes encore au printemps 2008 sur les co-occurrences
inspirées des travaux de Serge Heiden ou de Jean-Marie
Viprey).Parfois même des programmes tiers, hérités de
Ludovic Lebart, André Salem ou Pierre Ratinaud, sont directement mis en œuvre.
·
Communauté
d'utilisateurs
Hyperbase est à
l’origine destiné aux analyses de contenu, domaine commun aux littéraires, aux
linguistes, aux historiens, aux philosophes dont la matière première est le
texte. Des sociologues, des psychologues, voire des instituts de sondages
utilisent également Hyperbase pour l’analyse des
enquêtes en texte libre ou des études de marché. Précisons enfin que le
logiciel fonctionne sous environnement Windows (la version Mac n’est
malheureusement plus disponible jusqu’à nouvel ordre). Le prix de vente étant
modulable selon le nombre de licences commandées, il est répandu assez
largement dans le monde de la recherche et est enseigné dans plusieurs
universités de France et du Canada. La version 10 étant désormais gratuite et
téléchargeable (depuis 2015), la diffusion du logiciel devrait s’en trouver
élargie.
·
Perspectives
Conçu il y a longtemps pour le standard Apple, puis
développé pour Windows, la version historique d’Hyperbase
était difficile à maintenir : son code n’était pas le même sur les deux
plateformes. En outre son intégration à Internet n’était pas suffisante. Enfin,
l’âge de son créateur, ainsi que le langage propriétaire dans lequel il a été
écrit offraient peu de garantie de maintenance et de développement. C’est
pourquoi une refonte du logiciel Hyperbase a été
confiée au Service Informatique du laboratoire BCL, afin d’améliorer la
modularité du logiciel et sa transportabilité sur Internet ; les priorités
principales étant la réécriture de l’application dans des langages supportant
les technologies du web (php, java, javascript), et ce dans le respect des standards informatiques
actuels (imports / exports aux formats XML et TEI ; encodage Unicode
des caractères, afin de pouvoir traiter des langues non-indoeuropéennes et/ou
rédigées dans d’autres alphabets que l’alphabet latin). Laurent Vanni, ingénieur récemment recruté au laboratoire, s’est
consacré à cette tâche.