Le premier atelier concernant la valorisation des affiches numérisées de La Contemporaine a eu lieu le 31 mars 2022. Il avait pour objectif de définir les exploitations souhaitées pour ce fonds à l’aide d’outils d’apprentissage machine.
Présentation du corpus et travaux réalisés
Le fonds d’affiches numérisées se compose de 26 712 fichiers JPG ; une cote pouvant rassembler plusieurs fichiers. Un travail d’enrichissement et de nettoyage des données a été initié afin de rassembler des informations sur ces fichiers. À ce jour, un peu moins de 11 000 fichiers sont décrits par des métadonnées, à savoir : la cote, la date, l’auteur, le titre, le pays concerné, la langue, le commanditaire, le producteur, l’imprimerie, le lieu de production, les dimensions, les dimensions entières et l’URL renvoyant vers la numérisation dans l’Argonnaute.
Quelques visualisations statistiques ont été réalisées à partir de ce fichier de métadonnées :
- Concernant les dates, langues, pays et lieux de production des affiches : https://public.tableau.com/app/profile/perissier/viz/LC_Affiches1/DateThmatiquePaysVille.
- Concernant les auteurs, commanditaires, imprimeries et thématiques des affiches : https://public.tableau.com/app/profile/perissier/viz/LC_Affiches2/AuteursCommanditairesImprimeries?publish=yes.
Ces métadonnées ont été puisées dans les instruments de recherches Calames pour la partie Collection Musée, dans le fichier de description des affiches par lot et dans un fichier de récolement. Les informations récoltées demeurent inégales et seront enrichies par la suite du projet.
Sur l’ensemble du corpus cette fois-ci, l’outil PixPlot permet, par une exploration non-guidée, de faire surgir des typologies dans le corpus. Ce visualiseur regroupe par similarités les images du corpus.
Voici les résultats obtenus dans le cas des affiches numérisées de La Contemporaine :
Les groupes d’images similaires sont identifiés dans le bandeau à gauche de l’écran. Ici, ils représentent les affiches textuelles se situant sur la partie gauche du nuage d’images.
Quant à la partie droite du nuage d’images, elle comporte les affiches graphiques où l’image tient le rôle principal.
Problématiques discutées lors de l’atelier
Comment permettre aux conservateurs de se repérer dans cet ensemble de données monumental et comment le valoriser pour divers publics ? Comment le corpus est-il constitué ? Quelles sont ses composantes les plus intéressantes ?
Cinq grands points ont émergé des discussions :
I. La question de la définition du corpus
Le fonds numérisé étant hétérogène, divers sous-corpus possibles sont proposés :
- Corpus avant 1945
Il s’agit d’un corpus constitué et cohérent, avec des métadonnées homogènes, qui permettra de faire des analyses précises.
- Pseudo-corpus après 1945
Ces images sont issues de campagnes de numérisation non coordonnées, avec des objectifs et des méthodologies très différents. Il ne s’agit pas d’un corpus cohérent, mais on pourrait utiliser les outils numériques pour l’explorer et faire apparaître des thématiques émergentes.
- Le fonds Baillargeon
Cet affichiste va faire l’objet d’une exposition, et il pourrait être intéressant de tester quelques outils sur son fonds. Ceci nécessiterait en premier lieu une numérisation « à la volée » (téléphone) des images non numérisées, pour tenter de repérer des similarités avec d’autres corpus, repérer des numérisations non attribuées.
II. L’amélioration des métadonnées
- Nettoyage et enrichissement des données existantes (doublons, erreurs, standardisation)
- Entraînement sur les sujets et classes existants pour compléter de manière semi-automatique les métadonnées incomplètes ou manquantes (attribution d’auteur, lieu et date de production, texte océrisé des affiches)
III. L’interface et les outils de recherche
- Visualisation du fonds et recherche en fonction de certaines caractéristiques (date, localisation, auteur, commanditaire)
- Recherche complexe croisant les informations textuelles et graphiques
IV. La valorisation auprès des publics
- Proposition d’un parcours virtuel dans l’histoire de l’affiche à partir du fonds — voir https://github.com/amnh-sciviz/collectionscope#readme
- Apprentissage et prise en main de l’outil numérique, aspects didactiques
V. Les outils de traitement
- Océrisation (en particulier cyrillique, gothique)
- Classification des affiches en fonction des contenus textuels (mots clefs, thématiques)
- Reconnaissance des entités nommées (personnes, lieux, institutions) et alignement multilingue (avec Wikidata)
- Reconnaissance faciale (De Gaulle, Jaurès) à partir de recherche d’images
- Production de descriptions automatiques des images (avec CLIP)
Objectifs souhaités
Plusieurs pistes sont envisagées pour la suite, après un travail de nettoyage et d’enrichissement des métadonnées existantes :
Texte
- Traiter en océrisation l’ensemble des affiches numérisées et intégrer les données textuelles ainsi que la langue repérée dans la base de données
- Tester les outils de reconnaissance d’entités nommées déjà produits pour compléter les sujets, et aligner ces entités sur un vocabulaire contrôlé (Rameau?)
- Tester des outils de vectorisation de mots pour classer les affiches
Image
- Tester la génération de descriptions automatiques
- Organiser un atelier sur les affiches autour de mai 1968 pour vérifier la possibilité de les océriser (texte manuscrit) et tester des outils comme SIFT pour repérer des motifs (logos, poings, pendus) et observer la circulation d’un imaginaire graphique
- Tester sur le fonds Baillargeon des outils de similarité avec le reste du corpus, entraîner un outil de reconnaissance du photomontage