EuDML

Les collections rassemblées

(Le projet EuDML s’est achevé en janvier 2013 ; les activités sont désormais portée par l’initiative EuDML, consortium européen dont Mathdoc est partie prenante : Thierry Bouche, président ; Olivier Labbe, membre du comité technique)

Organisation et objet

EuDML (The European Digital Mathematics Library: la bibliothèque numérique européenne de mathématiques) est un projet visant à mettre en place une bibliothèque numérique de référence pour les mathématiques. Il est financé à hauteur de 50 % par la commission européenne dans le « programme cadre pour la compétitivité et l'innovation », et s'inscrit dans l'effort mondial pour la construction d'une bibliothèque numérique de mathématiques (World Digital Mathematics Library: WDML, voir ici les derniers développements). Le consortium formé par les partenaires du projet est composé par des organisations qui fournissent des contenus (des publications mathématiques sous forme numérique), une expertise et des moyens techniques, ou bien les deux. Pour plus de détails, on pourra consulter le site du projet.

L'objectif du projet EuDML est d'offrir aux mathématiciens, aux scientifiques et au grand public un outil puissant leur permettant de localiser et d'accéder à des textes pertinents. Cet outil repose sur une infrastructure où les DML locales (partenaires fournisseurs de contenus) partagent leurs métadonnées (et dans certains cas les données elles-mêmes) dans un système unifié, ce qui permet d'offrir un point d'entrée unique dans une partie substantielle de la littérature pour l'utilisateur final, mais aussi de développer des services avancés et des interfaces machine.

EuDML est une bibliothèque répartie sur plusieurs centres en Europe (dits centres DML locaux) qui archivent chacun un sous-ensemble du corpus. Les éditeurs qui souhaitent coopérer avec EuDML doivent être en contact avec un partenaire du projet EuDML et y déposer leurs archives. Mais au-delà, EuDML soutient le caractère public de la science et se positionne en faveur du libre accès aux archives des publications scientifiques (la liberté d'accès à terme à tout le contenu est une condition sine qua non de participation). Le projet adhère à toute norme technologique appropriée pour faciliter la représentation, l'échange et la découverte des savoirs.

EuDML vise à apporter une contribution importante à la future bibliothèque internationale WDML en s'efforçant de développer un modèle d'archive pérenne du corpus mathématique numérique, conservée dans le cadre d'un service public neutre et indépendant. L'objectif principal est donc de fournir aux scientifiques et au grand public un corpus de référence fiable, base nécessaire à tout développement ultérieur fondé sur les savoirs mathématiques.

Le projet a duré trois ans de février 2010 à janvier 2013. Les participants de ce projet ont l'intention de continuer après ce terme, en vue de transformer les services EuDML en une infrastructure durable et internationale en train de se constituer sous le nom : EuDML initiative.

Les collections actuelles

EuDML offre un accès unifié à plus de 220 000 documents numériques (articles parus dans des revues à comités de lecture, communications dans des conférences ou des séminaires, livres, chapitres de livres, œuvres en plusieurs tomes, etc.) dans 14 collections en provenance de Bulgarie, République tchèque, France, Allemagne, Grèce, Italie, Pologne, Portugal, Russie, Italie et Espagne. EuDML a créé de nombreux liens entre ces éléments. Au moins 97 % des textes ont un fichier PDF en accès libre.

Les collections actuellement disponibles sur EuDML comprennent des revues comme les Annales Scientifiques de l'École Normale Supérieure, Annali della Scuola Normale Superiore di Pisa - Classe di Scienze, Bollettino dell'Unione Matematica Italiana, Compositio Mathematica, Czechoslovak Mathematical Journal, Inventiones Mathematicæ, Journal für die reine und angewandte Mathematik (Crelle), Mathematische Annalen, Mathematische Zeitschrift, Publications Mathématiques de l'IHÉS, Séminaire Bourbaki, Zeitschrift für Analyse und ihre Anwendungen, et des œuvres de Gauß, Euler, Cauchy…

Fonctionnalités et services

Le système actuel EuDML a été conçu comme une mise en œuvre pilote de la vision DML, mettant l'accent sur l'agrégation et l'uniformisation des contenus provenant d'une variété de fournisseurs pour créer un point d'accès unique disposant d'outils puissants de découverte et de navigation. En outre, des innovations technologiques ont été déployées et sont en cours de test grandeur nature.

L'état du système à la fin du projet peut être résumé comme suit :

  • Le contenu disponible en ligne est plus important que prévu il y a trois ans, et la diversité des types de contenus pris en charge (articles, livres, communications dans des conférences) couvre 98% des besoins des mathématiciens.
  • La recherche fonctionne assez bien, on peut trier et raffiner par facettes les résultats. Un feuilletage est disponible par journal, classification mathématique. On ne peut pas feuilleter autre chose que les revues.
  • Toutes les métadonnées disponibles ont été converties en MathML, si bien que les informations sur un texte sont parfois mieux présentées sur le site eudml.org que sur le serveur d'origine !
  • Création systématique de liens à chaque fois que cela est possible (liens vers les bases de données MathSciNet et zbMath depuis les textes EuDML ou leurs références bibliographiques, mais aussi de nouveaux liens internes entre les textes EuDML), certaines fonctions web 2.0 sont actives.
  • Des services expérimentaux sont activés sur le site et en cours d'evaluation : suggestion d'articles similaires, recherche sur les formules mathématiques…
  • Un projet plus expérimental vise à accroître l'accessibilité aux utilisateurs handicapés visuels, par la diffusion de formats et d'outils adaptés.
  • Les interfaces de service qui permettent des appels directs depuis des machines distantes de la base de données EuDML sont publiques et documentées, ce qui ouvre la possibilité de faire référence aux textes EuDML depuis toute page Web avec une grande facilité et de façon automatique.

Le rôle de Mathdoc

Le projet EuDML est le dernier rejeton d'une série de propositions dans la même veine qui ont été préparées par la société européenne de mathématiques (SME ou, si l'on préfère, EMS), singulièrement par son comité chargé des publications électroniques. C'est finalement en 2008 que la forme actuelle du consortium se stabilise autour d'une proposition soumise dans le cadre du programme eContentplus. L'équipe a été réunie par Thierry Bouche, alors directeur adjoint de Mathdoc, mandaté par Pavel Exner (alors président du comité EPC et vice-président de l'EMS). La proposition se fonde sur les principes qu'il a proposés et discutés au cours de nombreuses visites en Europe ; elle se distingue de propositions précédentes par son nom (DML-EU : chapitre européen de la DML, contre EuDML où « Eu » se prononce comme un U anglais, donc comme la moitié d'un W), le principe ferme d'une bibliothèque distribuée de textes librement accessibles à terme, l'introduction enfin de techniques de gestion des savoirs mathématiques (ou MKM : mathematical knowledge management) et d'une ambition de faire bouger les lignes en matière d'interaction avec le corpus. Ce projet n'est pas retenu mais bien classé. Profondément remanié tout en conservant les mêmes principes en 2009, il sera finalement accepté par le programme CIP ICT PSP qui reprend les objectifs d'eContentplus, au titre de l'action « Digital Libraries : Open access to scientific information  » (bibliothèques numériques : libre accès à l'information scientifique).

Mathdoc est donc coordonnateur scientifique du projet, et responsable du 3eWork package (agrégation de métadonnées). Le 2eWork package est de fait dirigé aussi pour moitié par Mathdoc (communication avec le conseil consultatif scientifique, relation avec les partenaires potentiels). Par ailleurs, les collections apportées par Mathdoc (NUMDAM, et CEDRAM) sont les deuxièmes par la quantité, après celles du projet allemand GDZ.

Mathdoc a contribué de façon significative aux actions suivantes :

  • Constitution d'un réseau européen de centres DML
  • Recensement des collections existantes, analyse détaillée sur les plans quantitatif et qualitatif
  • Veille technologique sur les standards de métadonnées adaptées au corpus mathématique
  • Définition du schéma EuDML (basé sur NLM JATS) et des types de documents pris en compte
  • Mise en œuvre des conversions de formats de métadonnées
  • Outils de conversion à la volée de TeX vers MathML (basé sur tralics et les outils du CEDRAM)
  • Outils d'association de référence bibliographique (basé sur un logiciel développé pour NUMDAM)
  • Validation des choix techniques, des outils et de l'interface, notamment en faisant appel à des mathématiciens grenoblois

Une rétroconversion des articles de NUMDAM vers LaTeX et XML/MathML est en cours à l'aide d'une version spécifique du logiciel InftyReader développée pour le projet. L'objectif est d'alimenter en formules mathématiques les services expérimentaux déjà intégrés, comme le calcul de similarité sémantique tenant compte des formules, la recherche sur les formules…

Les chantiers pour aller au-delà, dès 2013

Pour faire du prototype actuel une infrastructure mûre, fiable et durable, le travail devra être poursuivi dans trois directions principales.

Technique

Comme CIP n'était pas un programme orienté recherche mais innovation, l'accent est mis sur l'intégration de contenus et de technologies existantes.

  1. Il est temps, maintenant que nous avons des données précises sur les performances et l'utilisation, de repenser l'architecture et la technologie utilisées dans le système actuel pour créer une infrastructure pérenne évolutive et capable d'encaisser plusieurs changements d'échelle.
  2. Les mécanismes d'import, les conversions, les API doivent être développés de façon systématique et validés en tenant compte des standards existants ou émergeants.

Contenu

Le contenu doit croître au point où EuDML sera une source essentielle d'accès à la littérature dans la vie quotidienne du mathématicien au travail — on peut espérer que cela devienne une ressource basique en Europe et dans le monde. À cette fin, nous devons faire face à un certain nombre de défis intéressants, dont certains auront besoin de beaucoup de temps et d'énergie.

  1. Mise en place du réseau constituant la bibliothèque distribuée EuDML avec ses règles, sa charte et sa gouvernance, le tout configuré de telle sorte qu'un passage à l'échelle mondiale se fasse en douceur.
  2. Faire avancer les discussions avec les éditeurs scientifiques actifs en mathématiques (ils sont nombreux, et des profils très variés). Identifier les bénéfices qu'ils pourraient retirer d'une collaboration, quitte à revoir certains choix politiques.

Recherche

Le projet EuDML aura été un bon moyen d'identifier un grand nombre de domaines dans lesquels la faisabilité de la vision DML atteint ses limites, pour des raisons variées de barrières humaines, techniques, voire économiques. Il y a un écart important entre ce qui est théoriquement possible (voire évident) et ce qui est concrètement faisable. Des activités de recherche devront être engagées afin de proposer des solutions nouvelles pour combler ces lacunes.

Grâce à EuDML, nous avons l'opportunité de disposer d'un corpus de masse critique et d'un cadre pour tester de nouvelles technologies et les évaluer.

  1. Tout progrès en ingénierie documentaire mathématique permettrait de grandes améliorations de l'expérience des utilisateurs, voire pour la gestion automatisée des corpus.
  2. Au-delà, il faut approfondir la recherche de formules mathématiques (ou plus exactement : la recherche dans des champs qui peuvent comporter du texte et de formules), et toute une série de travaux dans le domaine d'un traitement automatisé non seulement des langues naturelles mais aussi du « langage » mathématique.