Le travail réalisé porte sur deux périodiques numérisés : l’annuaire URSS et le Digest Spoutnik.
Il a tout d’abord été question de récupérer les métadonnées générales disponibles sur ces périodiques. On y trouve pour chaque périodique : l’ISSN, la cote, le nommage JPG du périodique, la date de publication, la langue, l’auteur, le lieu d’édition et l’éditeur.
D’autre part, ces documents étant océrisés au format PDF, un script a été créé afin de récupérer le texte issu de l’océrisation dans un fichier de métadonnées qui contiendrait le texte océrisé ainsi que la page jpg correspondant au texte. On trouve donc un fichier de métadonnées par volume avec le numéro de page, le fichier jpg correspondant à la page et le contenu textuel de la page. Le script d’extraction du texte d’un PDF est disponible sur le GitHub du projet en cliquant sur le lien suivant.
Les fichiers de métadonnées obtenus sont accessibles via le GitHub du projet en cliquant ici.
Réalisations possibles avec les fichiers de métadonnées
– les métadonnées textuelles pourraient être versées dans un base de données ce qui permettrait d’interroger plus facilement le contenu textuel de tous les périodiques
– à partir des métadonnées textuelles, des analyses lexicométriques pourraient être réalisées