Presse illustrée et estampes satiriques

Pour ce corpus, le travail réalisé porte sur l’extraction de documents, en particulier à partir de la presse allemande. En effet, l’université d’Heidelberg a mis en place une bibliothèque numérique contenant un grand nombre de périodiques récupérables via un notebook disponible sur le GitHub du projet et dont on trouve un tutoriel ici.

Cet outil permet de générer un dossier pour chaque volume de périodique avec les fichiers souhaités (xml-alto, IIIF, texte brut océrisé, extraction des illustrations, jpg).