Les textes électroniques

Jean-Pierre Sakoun,
Bibliopolis
jps@bibliopolis.fr




retour

Site de référence : http://www.bibliopolis.fr

Je dirige la société Bibliopolis que la plupart d'entre vous connaissent pour ses activités bibliographiques sous son ancien nom, Chadwyck Healey. Notre société est éditrice depuis 1985, et elle a la particularité d'avoir rarement édité sur papier : avant la naissance des supports électroniques, Chadwyck Healey éditait essentiellement sur microformes de très importants volumes de données. Chadwyck Healey a rarement édité sur papier, mais en général éditait trois cents ouvrages à la fois, ce qui était compliqué à gérer. Ceci explique que, dès que le CD-ROM est devenu une technologie intéressante et utilisable, à la fin des années 1980, Chadwyck Healey ait radicalement transféré son activité sous forme électronique. En pratiquement un an, toute l'activité de la société est passée de l'édition analogique sur microformes à l'édition électronique sur CD-ROM.

L'étape suivante de cette progression, c'est-à-dire l'ouverture d'un serveur en ligne par abonnement, se produira en septembre 1998. Mais elle est déjà largement avancée puisque nous avons porté nos publications sous navigateur Internet et que nos CD-ROM sont en fait de petits serveurs internet, ce qui fait que les établissements qui utilisent nos publications peuvent les porter sur leur intranet instantanément. En ce qui concerne les serveurs, la plupart de nos produits sont prévus pour fonctionner sous Windows et Windows NT. A partir de septembre, nous espérons qu'Unix sera supporté.

Nous avons quatre grands domaines d'édition :

Pour nous, l'édition électronique répond a trois obligations :

  • La première, c'est le respect absolu des textes, ce qui est à la fois le plus important et le plus difficile. Exemple : nous venons d'éditer un Montaigne électronique énorme et très complexe, et nous éditons, dans ce Montaigne, des textes qui, pour les plus anciens, c'est-à-dire " La théologie naturelle de Raymond Sebond ", en latin, remontent à 1474, et pour les plus modernes, aux années 20-30. Ces derniers textes sont les grandes éditions critiques de Montaigne. Quand on lit ces ouvrages, l'oeil corrige les erreurs quand une note en bas de page est mal appelée ou que l'appel est oublie ; le logiciel ne le fait pas. Ceci signifie que le texte est perdu. Dans la première compilation de ces textes que nous avons faite, il y avait 87 000 notes de bas de page et le logiciel en a perdu 17 000. Il a fallu " raccommoder " ces 17 000 notes à la main, prendre les textes page à page et réintégrer les appels de note ou il le fallait, refaire tout un travail que l'oeil fait mais que l'informatique ne sait pas faire.

    Le respect du texte et l'intérêt pour le texte sont absolument fondamentaux. Toute erreur revient à une perte du texte. Encore une fois, en lisant un texte avec une coquille, vous la corrigez ; si le logiciel de recherche cherche un mot dans lequel il y a une coquille, il ne le trouve pas. C'est pour cette raison que le taux d'erreurs couramment pratique dans l'édition papier, même dans la Pléiade (qui a un taux d'erreur accepté de une pour 12 000 à 18 000 caractères), est encore trop élevé dans l'édition électronique. Donc il y a un lourd travail de préparation du texte, de contrôle de la qualité de la saisie et de codage.

  • La deuxième obligation dans le domaine du texte électronique est de fournir avec le texte un outil d'interrogation qui prenne en compte l'ensemble du texte et de sa richesse, dans sa diversité et dans son ampleur. Nous avons développé notre propre outil d'interrogation et d'indexation, selon des méthodes classiques : il s'agit d'un logiciel développé en langage objet, en C++, qui a une architecture strictement client serveur, et qui est aussi bien utilisable sur le web que sur CD-ROM, ce qui pour nous était fondamental puisque dans l'avenir nous pensons que les deux éléments seront réunis.

    Ce logiciel permet aujourd'hui toutes sortes de recherches, et se verra ajouter très prochainement trois types de recherches :

  • La troisième obligation pour nous est le travail éditorial. Quand nous publions, nous ne publions pas des masses de données pour le plaisir de les publier. Nous créons, nous tentons de recréer ou de redonner vie à ce que Michel Serres appelait la " cathédrale engloutie " en parlant des savoirs du passé. Il est vrai qu'aujourd'hui, quand on se tourne vers le passé, le savoir est l'équivalent des flèches de ces cathédrales mais qu'on ne voit pas le reste. Nous essayons de faire baisser le niveau de l'eau devant la cathédrale pour qu'on en voie un petit peu plus l'architecture.

    Donc, quand nous publions, notre principe, hormis lorsqu'il s'agit de publier l'oeuvre complète d'un auteur et d'en donner une édition exhaustive, est de publier, pour un thème et une période précise, les oeuvres complètes des auteurs connus, et une sélection d'oeuvres, toujours en texte intégral, des auteurs les moins connus. Par exemple, nous avons publié un recueil qui s'appelle Romanciers réalistes et naturalistes, 1820-1910. Nous y donnons les oeuvres romanesques complètes de Balzac, Stendhal, Zola, Flaubert, Huysmans, les Goncourt, Daudet, Valles, etc., mais nous donnons aussi plusieurs oeuvres d'écrivains qui, aujourd'hui, nous laissent tous un petit peu étonnés mais qui, à l'époque, étaient aussi connus que les précédents.

    La question des droits d'édition est très complexe. Ce n'est pas une question de prix : les éditeurs ont l'habitude de revendre leurs droits à leurs collègues à des prix très raisonnables. Pour obtenir des droits d'édition moderne de textes anciens, nous avons établi des liens étroits avec les éditions Le Seuil, Fayard, Gallimard, etc. Nous allons bientôt publier une " Poésie française ", qui va du Moyen Age au début du XXeme siècle, proposant les oeuvres de 400 auteurs, en oeuvre intégrale. Nous voulions aller jusqu'à la fin du XXeme, rajouter 200 poètes, mais cela faisait 1500 ayant droits et 10 ans de négociation !

    C'est pour cette raison que, en tant qu'éditeur électronique, j'appelle de tous mes voeux la création de l'équivalent d'une SACEM du texte, un organisme auquel je puisse verser une somme correspondant à ce que j'utilise et qui prenne à sa charge de les repartir entre les ayant droits

    On parle souvent de l'inquiétude des éditeurs papier ou du problème des éditeurs papier face à l'électronique. Les éditeurs papier font une chose que nous, éditeurs électroniques ne savons pas faire et qui est leur vrai métier : gérer les droits de leurs auteurs. Quand je m'adresse à Gallimard pour tenter de publier avec eux un Céline d'érudition qui fera ressortir de leurs archives les 90 % d'informations autour de Céline qui n'ont jamais été publiées, et non pas les 10 % publiées par Gallimard, il n'y a aucun problème : Gallimard, depuis dix à quinze ans, a fait un travail de fond, un travail de bénédictin pour racheter tous les droits électroniques de ses publications. L'éditeur classique garde sa vraie fonction, celle d'un vrai intermédiaire entre un utilisateur secondaire comme moi et un auteur ou un ayant droit.

    Quand on utilise des ouvrages du domaine public, le texte n'appartient à personne ou appartient à tout le monde. En revanche, la forme électronique, elle, particulièrement à travers les dernières décisions de l'Union européenne qui sont reprises par la législation française, est soumise à des droits, non pas pour soixante-dix ans comme pour le droit d'auteur, mais pour quinze ans. Et cette période de quinze ans peut être largement étendue puisqu'il suffit, pour les éditeurs, de reprendre le texte de leur publication et de le modifier pour repartir pour une même durée.

    On parle aujourd'hui de lois et de décrets d'application sur le cryptage des textes (donc le texte n'est lisible que si on a la clé de décryptage). Il ne s'agit pas de piéger ces textes, il s'agit de faire que je sois en mesure, moi qui ai fait l'effort d'investissement, l'effort commercial, etc., de reconnaître la différence entre un usage normal de ces textes, qui est l'usage décrit par les lois, et un usage abusif pour republier un CD-ROM ou créer un site qui coûterait à peu près 25 fois moins cher que le mien, simplement parce qu'il n'a pas fait l'effort d'investissement.

    Il existe aussi des systèmes parallèles à ceux de cryptage, dits de tatouage des textes, dans lesquels on ne peut pas séparer le texte d'un certain nombre de codages qui permettent de le reconnaître. Ces systèmes sont particulièrement utilisés pour le codage d'images.

    Présentation sur écran d'un exemple : l'Encyclopédie de la littérature française sur CD-ROM

    L'Encyclopédie de la Littérature française sur CD-ROM est notre dernière publication, qui sera donc sur le web lorsque nous ouvrirons notre site par abonnement, à la fin de l'année. Nous possédons aujourd'hui près de 3 000 oeuvres en mode texte dans nos différentes publications. Ce CD-ROM offre 171 textes que nous considérons comme les plus importants de la littérature française, avec des accès par siècle, par auteur et par titre, par une recherche et par tableau synoptique. La recherche peut se faire sur les auteurs, les titres, les genres (contes et nouvelles, poésie, prose de fiction, prose non-fictionnelle, théâtre), les dates ou les périodes et les mots ou expressions du texte. Il existe aussi une recherche experte qui est un peu plus sophistiquée.


  • retour

    Dernière mise à jour : 15 janvier 1999
    Contact : Jean-Pierre Sakoun