Menu

Documentation

mathdoc cellule coordination documentaire math contact 3 1

Une des missions de Mathdoc est de développer des services et des bibliothèques numériques à destination de la communauté mathématique, en coopération avec divers acteurs de l’Information Scientifique et Technique.

Numdam, la bibliothèque numérique française de mathématiques, a été développée par Mathdoc pour rendre accessible et conserver la production des principales revues françaises ou européennes en mathématiques.

Parmi les autres services documentaires, Mathdoc a créé plusieurs sites d’accès à des ressources numériques fournies par des partenaires extérieurs :

Les bibliothèques numériques suivantes ont également été conçues par Mathdoc : Mini-DML, LiNum, MDML. Elles servent de prototypes à des projets de plus grande envergure comme Geodesic (en cours de création). La bibliothèque numérique européenne EuDML résulte du partenariat de douze institutions dont Mathdoc qui y a joué un rôle moteur.

Mathdoc a pris part activement à la conception du Catalogue Fusionné des Périodiques de mathématiques (CFP) et du Portail Math et continue de gérer ces services en lien étroit avec le Réseau National des Bibliothèques de Mathématique (RNBM) et Mathrice.

Sélection et collecte

mathdoc cellule coordination documentaire math portail math livres

Que ce soit pour Numdam ou pour d’autres bibliothèques numériques telles que Geodesic, les documentalistes sollicitent l’expertise des conseillers scientifiques de Mathdoc et de membres du RNBM pour sélectionner les documents à intégrer en priorité. La collecte des documents et des métadonnées se fait soit par agrégation de métadonnées, soit via des chaînes d’acquisitions nativement numériques, soit via des opérations de numérisation.

Moissonnage de métadonnées

Le protocole d’échanges de données utilisé par Mathdoc est le protocole OAI-PMH. Ainsi, Mathdoc s’emploie à unifier les accès aux documents numériques des fonds documentaires produits et hébergés par d’autres structures afin de les rendre plus visibles et faciles d’accès. Cela consiste en l’agrégation des métadonnées de leurs collections dans des bibliothèques virtuelles spécialisées dans les mathématiques telles que mini-DML pour les articles, LiNuM pour les ouvrages, EuDML à l’échelon européen.

Pour le projet Geodesic, les documentalistes de Mathdoc travaillent en concertation avec le RNBM et des membres du conseil scientifique de Mathdoc pour identifier les sources de publications à agréger, et en lien étroit avec l’équipe informatique pour la mise en œuvre des processus de moissonnage.

Agrégation de sources

En partenariat avec Mathrice et le RNBM, Mathdoc a développé le Portail Math. Ce portail documentaire agrège les principales sources de fonds documentaires en mathématiques sur sa Bibliothèque numérique (entre autres services proposés). De nouvelles demandes de sources à agréger sont régulièrement signalées par les bibliothécaires du RNBM à l’équipe Documentation de Mathdoc.

Acquisitions nativement numériques

Afin de compléter les collections de revues déjà présentes dans Numdam et qui sont désormais publiées sous format nativement électronique, des chaînes d’acquisitions numériques sont mises en place en accord avec les éditeurs partenaires. Ce mode d’acquisition peut aussi concerner de nouvelles collections à intégrer dans Numdam.

Ainsi, après mise en ligne de la publication courante de leurs collections, les éditeurs mettent leurs données à disposition de Mathdoc : textes intégraux au format PDF, métadonnées au format XML et bibliographies au format BibTeX si possible. À réception des fichiers, Mathdoc ré-agence ces métadonnées dans un format XML ouvert et adapté pour la mise en ligne dans Numdam.

Opérations de numérisation

Le RNBM vient en appui à Mathdoc pour fournir des collections complètes et de qualité à numériser afin de les intégrer à Numdam ou à d’autres bibliothèques numériques telles que LiNuM et NUMiR au moment de leur constitution.

Quel que soit le mode d’acquisition des collections, en l’absence de contrat d’édition stipulant une cession des droits de publication numérique, les documentalistes de Mathdoc recherchent les auteurs ou leurs ayants droit afin d’obtenir les cessions de droit nécessaires à la numérisation et à la diffusion des collections à intégrer dans les différentes bibliothèques numériques.

Opérations de numérisation

mathdoc cellule coordination documentaire math portail math numerisation

Les opérations de numérisation pilotées par Mathdoc s’insèrent dans la politique d’acquisition des collections de Numdam, mais peuvent également répondre ponctuellement à d’autres demandes. Pour des opérations de numérisation qui portent sur de nombreux volumes (éventuellement massicotables), Mathdoc fait appel à des prestataires extérieurs et coordonne les projets. En revanche pour numériser ponctuellement des documents anciens et précieux, Mathdoc dispose désormais d’un scanner planétaire adapté.

Opérations de numérisation effectuées par des prestataires extérieurs

Préparation

La première étape est la rédaction d’un appel d’offre de marché public (rédaction d’un CCTP – cahier des clauses techniques particulières) dans le cas où la prestation dépasse un certain montant. C’est une étape qui prépare la phase de production. La seconde étape est la récupération des collections. Mathdoc ne possède pas de fonds documentaire et emprunte donc des collections à ses partenaires : bibliothèques du RNBM, bibliothèques locales, universitaires, municipales, éditeurs… Il faut donc identifier les détenteurs des collections et solliciter leur participation pour les emprunts et le transport. La troisième étape est celle de création d’un fichier dit de « dépouillement ». Il s’agit d’un fichier tableur comportant 3 niveaux de données : la description du lot, la description des fascicules composant ce lot et la description des articles de chaque volume.

Le fichier de dépouillement décrit également la construction des identifiants des articles sous la forme ACRONYME_aaaa__V_F_Ax_0 :
aaaa représente l’année qui peut aussi être de la forme aaaa-aaaa
V représente le numéro du volume/tome, s’il existe
F représente le numéro du fascicule, s’il existe
A est un code pour les articles ayant une pagination qui leur est propre
x est le numéro de l’article dans le volume s’il est accompagné d’un A, ou la première page de l’article en cas de pagination continue
S est utilisé pour les volumes spéciaux
0 est la place de l’article sur la page

Ces identifiants constituent les liens pérennes des articles de Numdam pour en assurer l’accès permanent, même en cas de transfert des données sur un nouveau serveur.

Production

Le prestataire réalise la phase de production :
numérisation de toutes les pages des documents au format TIFF noir et blanc à 600 dpi *
création des fichiers « article » : PDF, DJVU et TIFF multipages
production d’un fichier OCR.xml par article
création des fichiers de métadonnées au format XML pour chaque volume. Ce fichier rassemble les informations relatives au volume, aux articles et aux références bibliographiques finement balisées

* Les fichiers monopage reproduisent exactement le document original, pages blanches comprises. Ils sont conservés pour être archivés et éventuellement utilisés pour une réimpression à l’identique des documents d’origine, ou pour reconstruire le PDF d’un article corrompu le cas échéant.

Contrôle qualité

A la livraison de la production, Mathdoc effectue un double contrôle qualité : l’un exhaustif, l’autre sur échantillon. Le contrôle exhaustif est une série d’analyses automatiques effectuées sur la totalité des fichiers livrés de manière à repérer rapidement toutes les erreurs éventuelles, avec comme support le fichier de dépouillement initial. Il vérifie également la validité des fichiers .xml. Le contrôle par échantillon permet de vérifier précisément la qualité visuelle des fichiers, le format des pages, et de tester la recherche plein-texte. L’interface Web utilisée pour cette étape permet de garder trace de tous les fichiers contrôlés et des erreurs détectées. La taille des échantillons de données ainsi que le nombre d’erreurs acceptables sont déterminés selon la norme AFNOR X06-021 (principes du contrôle statistique de lots). Le résultat du contrôle est formalisé par une fiche de recette qui sert de support aux échanges entre Mathdoc et le producteur des données qui s’en sert pour corriger les erreurs détectées jusqu’à entière satisfaction des demandes de Mathdoc.

Opérations de numérisation pour des partenaires locaux

En 2012, Mathdoc a numérisé l’intégralité de la Revue d’Écologie Alpine en partenariat avec le Laboratoire d’Ecologie Alpine (LECA) et l’Université Joseph Fourier (UFJ) qui a subventionné cette opération dans le cadre de sa mission de valorisation du patrimoine scientifique et technique local.

Mathdoc a aussi collaboré avec l’Observatoire des Sciences de l’Univers de Grenoble (OSUG) pour intégrer la Revue de Géologie Alpine à la chaîne de production Numdam. La diffusion des ouvrages s’effectue via un site dédié à la géologie alpine de l’Observatoire de Grenoble et administré par Mathdoc.

Pour ce qui concerne la coopération avec l’Institut de recherche sur l’enseignement des mathématiques de Grenoble (IREM), Mathdoc a engagé et suivi le programme de numérisation des publications de l’IREM pour les années 1974 à 2014 : numérisation, contrôle qualité et enrichissement des données, livraison des données. Ces données ont été fournies à l’IREM sans que Mathdoc ne les mettent en ligne.

Numérisation en interne

Pour des opérations de numérisation ponctuelle, Mathdoc dispose depuis 2022 d’un scanner planétaire adapté à la numérisation de documents de  mathématiques patrimoniaux (livres anciens et précieux). Cette numérisation en interne peut permettre de combler des lacunes dans les collections de bibliothèques numériques ou peut répondre à des demandes de numérisation externes.

Catalogage et enrichissements

mathdoc cellule coordination documentaire math portail math livres ordinateur

Le catalogage consiste à analyser les documents pour les décrire afin d’en permettre l’identification dans un catalogue de bibliothèque ou sur une bibliothèque numérique. Il s’agit à la fois d’une description physique via des notices bibliographiques et d’une description intellectuelle via l’indexation à l’aide de mots-clés ou d’une classification de type Mathematics Subject Classification. Quelle que soit la source des acquisitions, les métadonnées des documents sont enrichies et les textes intégraux sont indexés pour permettre des recherches multicritères et plein-texte.

Catalogage

Catalogage .xml

La première opération relative à la description des données consiste en un catalogage fin des documents destinés à alimenter la bibliothèque numérique Numdam en particulier. A cette fin, une Document Type Definition (DTD) dite « Volphys » a été élaborée dès 2003 par des documentalistes de Mathdoc pour servir de base à la construction des fichiers .xml qui constituent la colonne vertébrale de la bibliothèque numérique. Voici ci-contre  / ci-après un exemple de catalogage.xml à partir de la DTD Volphys :

A présent, Mathdoc est en train d’adopter les standards JATS pour les articles et BITS pour les livres car ce sont les formats les plus couramment utilisés aujourd’hui. En effet, ils ont été développés par la National Information Standards Organization (NISO), organisme à but non lucratif dédié aux normes dans le domaine de l’édition, des bibliothèques et de l’accès à l’information.

Le catalogage .xml répond aux objectifs finaux de la mise en ligne, soit : la possibilité de feuilletage des collections, les recherches par titre, auteur, année, plein-texte, et dans les bibliographies.

Normes de catalogage

Le rôle de Mathdoc est aussi de coordonner au niveau national le respect des normes de catalogage préconisées par l’Agence Bibliographique de l’Enseignement Supérieur (Abes) et l’harmonisation des pratiques pour la description des périodiques signalés dans le CFP. C’est un des objectifs du comité opérationnel du CFP, groupe de travail du RNBM co-animé par Mathdoc.

				
					<?xml version="1.0" encoding="ISO-8859-1" standalone="no"?>
<!DOCTYPE volphys SYSTEM "http://www.numdam.org/dtd/volphys.dtd">
<volphys>
	<notice>
		<idvol>AST_1973__1_</idvol>
		<revue>
			<issn>0303-1179</issn>
			<acronumdam>AST</acronumdam>
			<titre_revue>Astérisque</titre_revue>
		</revue>
		<tome>
			<numero>1</numero>
			<annee>1973</annee>
			<titre_vol>Trois problèmes sur les sommes trigonométriques</titre_vol>
		</tome>
		<fascicule/>
		<resp/>
		<editeur>Société mathématique de France</editeur>
		<pages>94</pages>
		<numerisation>
			<idphys>AST_1973__1_</idphys>
			<datescan>2017-06-26</datescan>
			<infos>Numérisation à défilement à 600 dpi noir et blanc</infos>
		</numerisation>
	</notice>
	<article type="normal">
		<idart>AST_1973__1__1_0</idart>
		<ordreart>1</ordreart>
		<pagedeb systnum="arabe" pagination="normal" typepag="normal">1</pagedeb>
		<pagefin systnum="arabe" pagination="normal" typepag="normal">87</pagefin>
		<nbpages>87</nbpages>
		<ordre>0</ordre>
		<auteur>
			<nom>Meyer</nom>
			<prenom>Yves</prenom>
		</auteur>
		<titre xml:lang="fr">Trois problèmes sur les sommes trigonométriques</titre>
		<langue>fr</langue>
		<cphys>page0005.tif … / …page0091.tif</cphys>
		<biblio>
<bibitem>[1] <bauteur><bnom>Borevich</bnom>, <bprenom>Z. I.</bprenom></bauteur> et <bauteur><bnom>Shafarevich</bnom>, <bprenom>I. R.</bprenom></bauteur> <btitre>Number theory</btitre>. <bediteur>Academic Press</bediteur>, <bannee>1966</bannee>.</bibitem>
		</biblio>
	</article>
</volphys>

				
			

Enrichissements

Des outils ont été développés en interne pour permettre de travailler facilement sur les métadonnées. Parmi eux, l’outil dit de « raffinement » qui permet d’améliorer et d’harmoniser les métadonnées grâce aux opérations suivantes :

corriger la syntaxe ou l’orthographe des titres
réécrire en LaTeX les formules mathématiques présentes dans les titres, résumés et bibliographies
corriger le balisage des bibliographies
unifier la base de données d’auteurs de Numdam : ajout des identifiants auteur IdRef, ORCID, zbMATH, dédoublonnage, fusion (chantier en cours, voir plus bas)
rajouter des relations entre articles de type « suite de », « erratum », etc.
rajouter et / ou corriger des ISSN (papier ou électroniques) en lien avec l’Abes (via l’outil Cidemis)

Création de liens

Les bibliographies des articles font l’objet de création de liens (« matching ») pour réaliser la correspondance de chaque référence avec ses entrées dans les bases de données de mathématique zbMATH et MathSciNet. Lorsqu’ils existent, des liens sont aussi établis avec Crossref, EuDML et Numdam, ou encore vers un site fournissant le texte intégral de l’article cité dans la bibliographie.

Ajout des identifiants auteurs

Un chantier a été récemment amorcé pour récupérer les notices auteurs de la base IdRef afin de résoudre les questions de doublons et d’homonymie de la base auteurs de Numdam. Les identifiants auteur zbMATH et ORCID étant liés à IdRef, Mathdoc peut aussi récupérer ces informations.

Réindexation

Mathdoc est souvent sollicité par des détenteurs de collections déjà numérisées afin de les diffuser sur Numdam dans le but d’améliorer leur visibilité. Le statut de « pôle associé » de la BnF a initié la reprise de plusieurs collections de Gallica.

Parmi les collections de la BnF qui ont été réindexées se trouvent : les Œuvres complètes de mathématiciens accessibles via le site Gallica-Math, le Journal de Mathématiques Pures et Appliquées ou encore le Répertoire bibliographique des Sciences mathématiques. Des sites individuels ont été créés pour ces collections et à terme, elles seront progressivement intégrées à Numdam.

Le Journal de Mathématiques Pures et Appliquées (JMPA) a fait l’objet d’une reprise récente pour améliorer la collection de la BnF et étendre les traitements appliqués à la période 1935-1945 pour finalement intégrer toute la collection dans Numdam. La reprise de ces données a consisté en un catalogage fin de chaque volume, la numérisation des volumes correspondant à des lacunes dans Gallica, et aussi la reconnaissance des caractères dans les fichiers numérisés de la BnF.

Curation des données

Pour le projet Geodesic, le travail de curation va consister à compléter les collections moissonnées, corriger et enrichir les métadonnées, dédoublonner les articles et ajouter les liens vers le texte intégral des documents diffusés en open access. L’objectif de ce projet est de fournir un accès unifié à la profusion de documents numériques en libre accès éparpillés sur le web.

Historiques et ISSN

Conformément aux préconisation de la norme ISO 8:2019 (Information and documentation — Presentation and identification of periodicals), Mathdoc a amélioré la présentation des collections de Numdam en ajoutant pour chaque titre de revue ou collection de monographies l’historique du titre avec les mentions de changements de titre, d’éditeur, les périodes de publication, les ISSN et eISSN et s’il existe, un lien vers l’édition courante.

Historiques issus du CFP

Le partenariat avec le RNBM, pivot depuis le début de Mathdoc a donné lieu à la création du Catalogue fusionné des périodiques (CFP) qui sert aussi d’outil de gestion du Plan de Conservation partagée des périodiques imprimés de Mathématiques (PCMath). L’intérêt de ce catalogue réside également dans l’affichage des historiques de revues qui ont été récupérés pour alimenter les historiques dans Numdam.

ISSN

La mise en place des historiques a nécessité l’exploration des catalogues bibliographiques de la BnF, du Sudoc, et du Portail ISSN pour lequel Mathdoc a souscrit un abonnement. Les informations trouvées ont été concaténées et comparées entre elles pour parvenir à une réalité objective maximale. Les sites des éditeurs font également foi dans la recherche si ces informations sont disponibles.

Pour certains documents, comme les Séminaires, de première importance pour les mathématiciens mais qui n’ont pas fait l’objet d’un dépôt légal au moment de leur parution, il a fallu demander l’attribution de eISSN pour une majorité d’entre eux. Ceci afin d’être en conformité avec les lois relatives à la diffusion de documents numériques. Cela a pu être réalisé grâce à l’application Cidemis (CIrcuit dématérialisé des DEMandes ISSN), outil de l’Abes destiné à faire ce type de demande. Cidemis permet également de faire des demandes de modifications de notices lorsque celles-ci présentent une erreur par exemple dans le catalogue du Sudoc, et même sur le Portail ISSN.

mathdoc cellule coordination documentaire math open access

Diffusion et signalement

mathdoc cellule coordination documentaire diffusion signalement 2

La diffusion en libre accès de publications de recherche en mathématiques est une des finalités des activités documentaires réalisées par Mathdoc que ce soit dans Numdam, dans d’autres bibliothèques numériques telles que EuDML et Geodesic ou via le Portail Math. L’interopérabilité avec d’autres plateformes permet en outre de valoriser ces collections et d’en améliorer la visibilité.

Serveurs OAI-PMH

Toutes les métadonnées de Numdam alimentent les serveurs OAI qui assurent l’interopérabilité avec d’autres plateformes comme Gallica, BASE ou EuDML. L’accès à la base de données contenant les références bibliographiques de la totalité des articles des revues participantes est entièrement libre à travers les fonctions de recherche et de feuilletage. La base de données elle-même est la propriété de Mathdoc. Une licence CC0 est attribuée aux métadonnées, donc elles sont placées dans le domaine public. Le serveur OAI-PMH de Numdam permet de télécharger ces métadonnées de façon systématique.

mathdoc cellule coordination documentaire math interoperabilite

Fichiers KBART

Mathdoc participe à l’alimentation de BACON (Base de connaissance nationale), entrepôt de métadonnées de référence sous licence CC0 géré par l’Abes. Son objectif est d’optimiser le signalement des ressources électroniques pour en faciliter l’accès et favoriser le partage des métadonnées entre les acteurs de la communication scientifique.

A cette fin, Mathdoc fournit ses propres données à l’Abes sous la forme de fichiers KBART. Ces ont des tableurs qui contient toutes les données relatives à une revue, avec les mentions des dates de début (et de fin le cas échéant), les numéros ISSN et eISSN, les dates de disponibilités en libre accès en ligne, le type de document, les périodes de barrières mobiles, etc.

Initialement créé manuellement afin d’harmoniser les métadonnées de Mathdoc avec celles des institutions documentaires de l’enseignement supérieur et de la recherche, il est désormais produit automatiquement. Le fichier KBART des données du centre Mersenne est aussi disponible sur BACON.

mathdoc cellule coordination documentaire math fichier kbart

En 2021, Mathdoc a signé une convention de partenariat avec Mir@bel qui s’inscrit dans le mouvement pour la Science Ouverte. En effet, Mir@bel a pour objectif de valoriser les contenus des périodiques scientifiques (revues ou séminaires) accessibles en ligne. Dès lors, les collections de revues de Numdam et du centre Mersenne ont fait l’objet de créations de notices dans Mir@bel et ces données sont régulièrement mises à jour par Mathdoc via les fichiers KBART.