Accueil / Projets Wikimedia / Wikipédia, une mine d’or pour les chercheurs en TALN

Wikipédia, une mine d’or pour les chercheurs en TALN

Posted on

par Dominique Laurent, éditeur de logiciels de correction, que nous avons invité à exposer pour nos lecteurs l’usage qu’il a fait des articles de Wikipédia dans sa récente recherche et son analyse des fautes de français.

Auteur de l’ouvrage Les Vraies Difficultés du français au XXIe siècle, je me suis appuyé pour ce travail sur l’étude de Wikipédia, à travers une comparaison des versions de chacune des pages, cette comparaison permettant d’extraire au final plus de trois millions de fautes d’orthographe et de grammaire. Au-delà de cet ouvrage (voir préface et table des matières) et de mon travail quotidien de développement de logiciels de correction de la langue française (Cordial, dans ses différentes versions), je voudrais ici tenter de montrer en quoi Wikipédia est une mine d’or pour la recherche en traitement automatique du langage naturel (TALN), pour la langue française comme pour les autres langues.

Les pages de Wikipédia comme corpus

Nous utilisons, et de nombreux chercheurs utilisent, l’ensemble des pages de Wikipédia comme corpus. Pour ce qui nous concerne, sur un corpus global de 22 milliards de caractères, l’encyclopédie (dans sa version de novembre 2011) représente 13,4 % de la totalité de nos corpus. Le corpus Wikipédia a ses spécificités, en particulier la proportion relativement importante de noms propres (trois par phrase en moyenne) et de données chiffrées ou de dates. Il n’est pas dépourvu de fautes mais offre tout de même un bon niveau orthographique, comparable à celui des corpus journalistiques et sensiblement supérieur à celui des corpus Web (hors Wikipédia), sans comparaison avec ceux issus de forums de discussion.
Les corpus (certains préconisent le pluriel latin corpora) sont le pain quotidien des chercheurs en TALN. Ils permettent de tester des hypothèses, de mesurer la fréquence des mots et des phénomènes linguistiques (apostrophes, anaphores, métaphores, etc.). Leur mise à jour et leur étude comparée permettent d’évaluer les vocabulaires spécifiques à un domaine ou à une époque. Le corpus Wikipédia offre, au surplus, un accès libre, ce qui n’est pas le cas de la plupart des autres corpus qui ne peuvent être utilisés, même à des fins de recherche, sans accord des auteurs ou des ayants droit, sauf lorsque le délai de copyright a expiré, les textes ne pouvant alors représenter l’état de la langue actuelle.

L’historique de Wikipédia comme corpus

Nous avons massivement utilisé le dump complet de Wikipédia pour l’extraction des fautes et de leurs corrections. Ce corpus occupait fin 2011 plus de 900 gigaoctets, une fois décompressé, et, même dégagé des pages de discussion, des pages utilitaires ou d’homonymie ainsi que des traductions et catégories, inutiles pour notre travail, l’ensemble reste très volumineux, certaines pages ayant plusieurs milliers de versions. Seule l’extraction des corrections nous a intéressés mais de nombreux traitements sont imaginables à partir de cette base très précieuse. Même sur les corrections, on pourrait imaginer de relever le délai entre la faute et sa correction ou (probablement plus significatif) le nombre de versions entre la faute et sa correction. On pourrait également comparer l’identifiant des auteurs de fautes et des auteurs de corrections qui, lorsqu’ils sont identiques, permettent de penser que ces fautes sont plutôt des fautes de frappe que des fautes de méconnaissance de la langue.
L’historique peut également être utilisé pour détecter des paraphrases (voir par exemple l’article et la présentation de Delphine Bernhard, du laboratoire Limsi, à CBA 2010 : http://stel.ub.edu/cba2010/slides2010/paraphrasing/afternoon/dutrey.pdf). D’autres pistes ont été ouvertes par d’autres chercheurs, entre autres les précurseurs Rani Nelken et Elif Yamangil de l’université de Harvard (http://www.eecs.harvard.edu/~elif/pubs/eggcorn.pdf).

Autres ressources de Wikipédia

Les données encyclopédiques de Wikipédia peuvent également être utilisées pour constituer des bases de données et améliorer l’analyse des textes, en fournissant des informations pragmatiques aidant à leur compréhension. C’est l’objet du projet DBpedia (Universités de Leipzig et Berlin) mais de nombreuses équipes de recherche ont extrait à partir de la Wikipédia anglophone ou à partir de versions dans d’autres langues des données sur les personnes, les lieux, les événements ou même sur les animaux et les plantes. Pour ce qui concerne les noms de lieux et la géolocalisation, Wikipédia est toutefois moins utilisée que la base Geonames.
Le Wiktionnaire est un projet distinct de Wikipédia mais il est également de plus en plus utilisé par les chercheurs, même si la lexicographie demande une rigueur qui est parfois absente de certaines contributions (voir l’article de G. Sérasset, J. Goulian et D. Schwab : « Extraire un réseau lexical des wiktionnaires multilingues », TALN 2011, Montpellier, 27 juin-1er juillet 2011).

Quelques aléas de Wikipédia

L’encyclopédie collaborative n’a pas été conçue pour les chercheurs en traitement du langage. Il est d’ailleurs amusant de constater que l’autre ressource principalement utilisée en TALN, à savoir WordNet, avait été conçue plutôt dans un objectif d’analyse psychologique et cognitive que pour un usage linguistique.
Tout chercheur utilisant Wikipédia est rapidement confronté aux limitations de ce corpus. L’exemple le plus frappant est l’absence de catégorie homme/femme. Cette absence de différenciation par sexe est une limitation importante à l’utilisation de Wikipédia en tant que ressource lexicologique, du moins pour ce qui est des noms de personnes. De même l’absence de catégorisation grammaticale pour les noms propres (pour les noms communs, le Wiktionnaire n’a pas ce défaut) est une autre limite.
Pour avoir essayé d’utiliser les catégories de Wikipédia pour replacer les noms propres dans notre vaste réseau sémantique, je peux également émettre des réserves dans ce domaine. Les catégories comportent en effet trop souvent des mélanges d’ensembles et de parties (hyperonymes et hyponymes), certaines catégories font parfois double emploi avec d’autres catégories, et sont surtout mal renseignées par de nombreux contributeurs. Les subdivisions par pays sont souvent source de doublettes. Ainsi 61 sociétés américaines figurent dans la catégorie « éditeur de logiciel américain » mais un plus grand nombre d’autres figurent dans la catégorie « éditeur de logiciel » sans précision de pays. Peut-être faudrait-il fournir aux contributeurs des outils permettant de mieux repérer les catégories ou peut-être faudrait-il développer des outils de remise à niveau des catégories ?

Wikipédia aide les chercheurs et ceux-ci aident Wikipédia

Je n’aborderai ici que les contributions de notre société à Wikipédia, manquant d’informations sur les contributions éventuelles d’autres chercheurs. Ayant confronté nos données sur les noms propres à celles de Wikipédia, cette confrontation nous a permis naturellement de découvrir des erreurs dans nos données mais également dans celles de Wikipédia, par exemple des personnes ayant une date de décès inférieure ou égale à leur date de naissance (Luc Desnoyers par exemple, correction du 23 avril 2010, ou Johnny Williams indiqué comme né en 1882 au lieu de 1982, etc.). Bien qu’ils ne soient pas les auteurs des pages sur notre société ou nos produits, plusieurs salariés sont par ailleurs contributeurs, mais c’est une autre histoire !

Dominique Laurent

Top