L’équipe informatique de Mathdoc s’exprime autour de différents axes de développements :
L’activité principale est celle de développement full stack. Elle se destine à :
Tous les développements sont hébergés sur un Gitlab mutualisé, et les informaticiens de Mathdoc s’appuient sur cet outil pour de l’intégration continue.
Les notices bibliographiques contiennent des informations sur la nature du document (monographie, périodique, etc.), la source d’un document (titre, auteur, date, sujet, éditeur, etc.), son contenu informationnel (descripteurs, mots-clés, résumé) et sa localisation physique (la cote). Pour un document numérique, ces notices s’appellent des métadonnées et sont des marqueurs que l’on introduit dans les fichiers ou dans des langages de programmation appropriés, les langages de marquage XML. Elles facilitent l’accès au contenu informationnel d’une ressource informatique, améliorent l’efficacité des recherches d’information par rapport aux recherches plein texte et permettent l’interopérabilité des ressources numériques.
Des applications spécifiques ont été développées afin de permettre l’édition des données aux formats JATS et BITS, par les documentalistes du projet Numdam, par les éditeurs de certaines revues du centre Mersenne, ou par des contributeurs individuels pour le projet de traduction semi-automatique.
Celle pour Numdam est écrite en XQuery et XForms. Elle repose sur eXist-db, une base de données Open Source nativement XML (base de données NoSQL orientée document). Celle pour le centre Mersenne est écrite en Python / Django / VueJS.
LaTeX est le format pivot de la chaîne éditoriale du centre Mersenne : toutes les informations relatives à un article se trouvent dans le code source de cet article. La compilation d’un document produit à la fois le fichier PDF et un fichier de métadonnées. Tralics est utilisé dans la création du fichier XML de métadonnées et pour la conversion des formules mathématiques en MathML.
Le projet Geodesic vise à construire une bibliothèque numérique globale recensant et dirigeant vers l’intégralité du corpus mathématique en libre accès. Les documentalistes agrégent les contenus de source au travers de services web utilisant le protocole OAI-PMH ou par du web crawling.
Plusieurs revues et des éditeurs partenaires transmettent leurs données pour archivage dans Numdam. Pour ces données, les informaticiens mettent au point un traitement qui se fait par des chaînes, appelées chaînes d’acquisition. Elles sont souvent spécifiques au fournisseur des données pour s’adapter à leurs formats et font la plupart du temps appel à des transformations XSLT accompagnées de manipulations de fichiers.
Les bibliographies des articles font l’objet de création de liens (« matching ») pour réaliser la correspondance de chaque référence avec ses entrées dans les bases de données de mathématique zbMATH et MathSciNet. Lorsqu’ils existent, des liens sont aussi établis avec Crossref, EuDML et Numdam, ou encore vers un site fournissant le texte intégral de l’article cité dans la bibliographie.
Un chantier a été récemment amorcé pour récupérer les notices auteurs de la base IdRef afin de résoudre les questions de doublons, d’homonymie de la base auteurs de Numdam. Les identifiants auteur zbMATH et ORCID étant liés à IdRef, Mathdoc peut aussi récupérer ces informations.
Dans le cadre du projet Numdam, un ensemble d’outils assurent le contrôle qualité des résultats de numérisation par un prestataire externe. Ils vérifient l’état des images, des fichiers PDF et le respect du balisage des métadonnées suivant les prescriptions de Mathdoc.
La préservation des données à long terme est une mission de Mathdoc. Une solution d’archivage pérenne est également développée pour assurer ce même contrôle qualité.
Rendre ses données interopérables est l’un des principes FAIR de la science ouverte. Les métadonnées produites par Mathdoc sont diffusées en libre accès sous licence CC0 ce qui permet de valoriser et d’améliorer la visibilité du contenu. Elles sont disponibles en XML depuis les serveurs OAI-PMH de Numdam et du centre Mersenne et alimentent d’autres plateformes comme zbMATH, Gallica, BASE ou EuDML. Les articles publiés par le centre Mersenne sont également enregistrés grâce à des services web dans des bases de données externes : Crossref, DOAJ, PubMed, CLOCKSS.
Mathdoc participe à l’alimentation de BACON (Base de connaissance nationale), entrepôt de métadonnées de référence sous licence CC0 géré par l’ABES. Son objectif est d’optimiser le signalement des ressources électroniques pour en faciliter l’accès et favoriser le partage des métadonnées entre les acteurs de la communication scientifique. A cette fin, Mathdoc fournit ses propres données à l’ABES sous la forme de fichiers KBART. Ils se présentent sous la forme d’un tableur, généré automatiquement, qui contient toutes les données relatives à une revue.
LaTeX est le format pivot de la chaîne éditoriale du centre Mersenne : toutes les informations relatives à un article se trouvent dans le code source de cet article.
La compilation d’un document produit à la fois le fichier PDF et un fichier de métadonnées. Tralics est utilisé dans la création du fichier XML de métadonnées et pour la conversion des formules mathématiques en MathML.
Mathdoc a développé et maintient une classe LaTeX particulière permettant notamment d’extraire automatiquement les métadonnées lors de la compilation. Dénommée « cedram », du nom du prédécesseur du centre Mersenne, basée sur amsart, elle reste très proche des autres classes d’articles pour les auteurs.
Le document reste compilable, même dans un environnement incomplet, pour produire le fichier PDF, par exemple pour un auteur. Un jeu de scripts rend ce processus transparent aux yeux des personnes assurant la mise aux normes pour le centre Mersenne. La compilation des articles est intégrée et pilotable depuis l’outil de gestion éditoriale.
En 2021 Mathdoc a démarré un projet visant à extraire dans les mêmes conditions le plein texte du source LaTeX. Cela permettra une meilleure accessibilité du contenu par un rendu HTML sur le site de chaque revue ainsi qu’une meilleure interopérabilité par la mise à disposition du texte en XML au format JATS.
Toutes les revues du centre Mersenne utilisent cette classe qui est adaptée aux besoins de chacune, notamment en autorisant une maquette dédiée. Quelques revues extérieures au centre Mersenne utilisent aussi cette classe. Cette même classe peut être utilisée dans un mode particulier pour l’acquisition de contenu nécessitant un peu de transcription dans le cadre du projet Numdam.
Contrairement aux sauvegardes, généralement volumineuses et avec une durée de vie assez courte, une archive a pour finalité de préserver les données sur une longue durée. Mathdoc suit les recommandations du modèle OAIS, en particulier :
L’archive est construite et alimentée automatiquement, en particulier lors de la publication de nouveaux articles. Des scripts de contrôle qualité sont disponibles pour vérifier l’archive. Les données sont stockées sur différents supports répartis géographiquement : serveurs répliqués sur plusieurs sites nationaux (GRICAD et via Mathrice sur différents établissements). En complément de la solution interne d’archivage, les données du centre Mersenne sont également envoyées à CLOCKSS pour un archivage distribué et remis à disposition des utilisateurs dans le cas extrême où l’éditeur cesse sa diffusion.