Analyse comparative de méthodes d’apprentissage pour la catégorisation de textes selon leur langue de rédaction Article - 2023

Baptiste Bohet, Nicole Vincent

Baptiste Bohet, Nicole Vincent, « Analyse comparative de méthodes d’apprentissage pour la catégorisation de textes selon leur langue de rédaction  », Revue des Nouvelles Technologies de l’Information, 2023, pp. 345-352. ISSN 1764-1667

L’objectif de cette étude est double. Il s’agit, d’une part, de catégoriser des textes romanesques en français pour permettre à un utilisateur de déterminer s’ils sont originaux ou traduits, c’est-à-dire nativement rédigés en français ou non. D’autre part, de procéder à une analyse comparative et d’optimiser les méthodes choisies pour obtenir ce résultat. Les données textuelles considérées ici sont volumineuses, variées thématiquement et stylistiquement. Les quatre méthodes mises en œuvre – qui prennent en compte aussi bien les caractéristiques fréquentielles, que lexicales, syntaxiques ou sémantiques – reposent sur un apprentissage automatique. L’analyse comparative des approches porte sur l’espace de représentation des données, le paramétrage, les taux de classifications (par classes et global) et l’explicabilité.

The objective of the work is twofold. On the one hand, the aim is to categorize french novels to make it possible for a user to determine whether they are original or translated, that is to say in the original language of the author or not. On the other hand, to compare and optimize the elaborated methods to achieve this goal. Here, the textual data we consider are voluminous and present variety in the themes and styles. The four implemented approaches – taking into account frequency, lexical, syntactic or semantic characteristics – rely on machine learning. The approach comparison considers the representation space as well as the parametrisation of the methods, the recognition rates (by classes or global) or the explainability.

Voir la notice complète sur HAL

Actualités