Outil d’océrisation automatique d’un corpus d’images

Cet outil permet d’océriser des documents au format image (JPG) afin d’en extraire le texte au format numérique. Par exemple, on peut utiliser cet outil pour récupérer le texte d’un image d’une page d’un livre ou d’un journal. Cet outil utilise le logiciel de reconnaissance optique de caractères Tesseract qui reconnaît le texte et la langue.

Les images doivent toutes êtres contenues dans un dossier, présent sur le Google Drive. 

Plusieurs formats de sortie du texte sont disponibles :
– texte brut .txt
– texte structuré (avec la position du texte sur la page) HOCR .xml

  • Accès au notebook et pas à pas

L’outil sous forme de notebook est disponible sur le dépôt Github (https://github.com/baoia/scripts) « scripts » dans le dossier « guides_de_voyage ». Pour l’utiliser, il suffit de télécharger le dépôt et d’ajouter le notebook sur son Google drive, ou bien d’ouvrir un notebook vierge (Google Colaboratory à partir de son Google Drive). Dans ce cas, cliquer sur l’onglet fichier dans le notebook, puis sur « Importer le notebook », puis dans l’onglet « Github » coller le lien du dépôt puis sélectionner « BaOIA_ocerisation_tesseract.ipynb ».

1ère cellule : L’exécution de cette cellule permet de se connecter à son drive Google sur lequel vont être téléchargés tous les documents (cf. aide technique). Dans le champ « chemin_vers_dossier_travail », indiquer le chemin vers le dossier de travail sur le Google Drive. S’il n’existe pas encore, il sera créé lors de l’exécution de la cellule.

2ème cellule : Indiquer le chemin vers le dossier contenant toutes les images à océriser. Ce dossier doit se trouver dans le dossier de travail Google Drive énoncé plus haut. Ensuite deux formats des fichiers textes de sortie sont disponibles : 

– un format texte .txt : le texte est brut, sans mise en forme ni aucune métadonnée.
– un format HOCR .xml : le texte est extrait et intégré à sa mise en page. Le format XML permet l’intégration du texte entre balises pour indiquer sa position sur la page; c’est un format de référence pour la mise en page structurée.

Il est possible de ne choisir qu’un seul des deux ou bien les deux. Exécuter la cellule lorsque le choix est fait.

  • Résultats

Dans le dossier de travail cité, un dossier « ocr » est créé pour enregistrer les fichiers textes ainsi qu’un dossier « hocr » pour les fichiers au format XML.