Automatiser le processus d’anonymisation des corpus oraux : le cas d’ESLO - Enquête Socio-Linguistique à Orléans Accéder directement au contenu
Communication Dans Un Congrès Année : 2015

Automatiser le processus d’anonymisation des corpus oraux : le cas d’ESLO

Résumé

Cet article aborde la question de l'anonymisation automatique des corpus oraux afin de permettre leur utilisation et diffusion sur la Toile. Nous proposons une analyse des éléments constituant un « faisceau d'indices » qui, dans un certain contexte, contribue à l'identification. Ces indices dépassent par leur diversité et leur hétérogénéité les entités nommées. Nous décrivons ensuite une expérimentation du repérage automatique de ce faisceau d'indices dans les transcriptions. Abstract. Recognizing clues leading to identification: anonymizing the transcriptions of the ESLO speech corpus This article tackles the question of oral corpus anonymization in preparation for its diffusion on the Web. We first analyze elements constituting a « clues set » which contribute to the identification. Those clues exceed named entities by their diversity and heterogeneity. Then we describe an experiment based on a module of automatic recognition of its clues in the transcriptions.
Fichier principal
Vignette du fichier
taln2015-ETeRNAL-AnonymisationEslo (1).pdf (486.36 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01174647 , version 1 (09-07-2015)

Identifiants

  • HAL Id : hal-01174647 , version 1

Citer

Iris Eshkol-Taravella, Olivier Baude, Denis Maurel, Layal Kanaan-Caillol. Automatiser le processus d’anonymisation des corpus oraux : le cas d’ESLO. TALN2015, Jun 2015, Caen, France. ⟨hal-01174647⟩
240 Consultations
389 Téléchargements

Partager

Gmail Facebook X LinkedIn More