Reconnaissance et extraction des entités nommées

Documents d’entrée : dossier contenant un ou plusieurs fichiers .txt. Ce sont les textes préalablement téléchargés.

Cet outil permet de repérer les entités nommées, cités dans les textes d’un corpus, ainsi que de les extraire. Un modèle préalablement entraîné sur un grand nombre de textes est utilisé pour la reconnaissance. Il est possible de détecter :

– Les lieux : France, Paris, place de la Concorde, etc.
– Les personnes : Charlemagne, marquise de Pompadour, Éric, etc.
– Les organisations : organisations gouvernementales, entreprises, etc.
– Divers : œuvres d’art, évènements, nationalités, marques, etc.

  • Accès au notebook et pas à pas

L’outil sous forme de notebook est disponible sur le dépôt GitHub (https://github.com/baoia/scripts) « scripts » dans le dossier « guides_de_voyage ». Pour l’utiliser, il suffit de télécharger le dépôt et d’ajouter le notebook sur son Google drive, ou bien d’ouvrir un notebook vierge (Google Colaboratory à partir de son Drive. Dans ce cas, cliquer sur l’onglet fichier dans le notebook, puis sur « Importer le notebook », puis dans l’onglet « Github » coller le lien du dépôt puis sélectionner « BaOIA_reconnaissance_extraction_entites.ipynb ».

1ère cellule : Cette cellule permet d’une part, le téléchargement du modèle en charge de la reconnaissance des entités : ainsi il faut choisir la langue des textes pour la reconnaissance des entités (Français, Anglais, Allemand, Espagnol ou Italien). L’installation et donc l’exécution de la cellule est plutôt longue.
D’autre part, son exécution permet de se connecter à son drive Google sur lequel vont être téléchargés tous les documents (cf. aide technique).

2ème cellule : Cette cellule permet la reconnaissance et l’extraction des entités nommées. Trois champs doivent être préalablement remplis :

            – chemin_vers_le_dossier_de_travail : il est inutile de le changer si le dossier de travail est le même que celui téléchargé de GitHub; soit /content/drive/My Drive/scripts-main/guides_de_voyage/ .

            – chemin_vers_le_dossier_de_fichiers_txt : c’est le dossier dans lequel les fichiers textes ont été préalablement téléchargés (voir outil Extraction de l’océrisation des documents de Gallica). Ce dossier doit être positionné dans le dossier de travail. Son chemin peut être, par exemple : /content/drive/My Drive/scripts-main/guides_de_voyage/dossier de fichiers textes/.

            – nom_du_dossier_des_entites : indique le nom du dossier choisi dans lequel les listes d’entités vont être enregistré. Ici, le nom est « entites corpus ».

Il est ensuite possible de choisir en cochant / décochant les cases les entités souhaitées extraites. Pour chaque document, une fichier de chaque entité est créé avec la liste (au format .txt). Exemple : en cochant les 4 cases pour 2 documents, 8 fichiers vont être créés.

Exécuter la cellule, cette étape est plutôt longue. Par exemple pour 7 documents, le temps d’exécution est de 12 minutes.

  • Résultats

Ici, il est possible d’aller jeter un œil aux documents créés qui contiennent les listes des entités. Quand on regarde le détail des résultats trouvés on remarque un nombre d’erreurs de reconnaissance variable mais parfois conséquent. En fonction du résultat souhaité et du degré de précision, un temps de correction est possible : supprimer à la main les faux résultats. Plus le corpus est conséquent, moins les erreurs de reconnaissance prendront de l’importance et inversement : sur un corpus de trois ou quatre documents, les erreurs seront plus visibles. Par exemple, dans le but de la création de représentation cartographiques comme les cartes de chaleurs où l’ensemble des lieux du’n corpus sont représentés pour repérer des tendances, un certain taux d’erreur est moins grave que pour la cartographie d’un parcours par exemple ou chaque lieu a son importance.

Ce sont des fichiers texte, il est possible de les modifier facilement comme tout document ; il est simplement important de conserver la structure (un seul lieu par ligne).

Documents de sortie : fichiers sous format .txt, un pour chaque document du corpus avec la liste des lieux , personnages, organisation et divers détectés par le modèle Spacy entraîné.