OCR en basque

Bien que la technologie que nous connaissons comme OCR soit ancienne, il n'y avait toujours aucune application de ce type qui nous permettrait de travailler en basque. Grâce au plug-in que vient de développer ELEKA, le programme OCR le plus connu du marché nous offre la possibilité de numériser des textes en basque. Ce projet a bénéficié du soutien du Gouvernement basque et le résultat sera bientôt dans la rue.

Les voies d'accès, d'analyse et de collecte d'informations changent. À une époque, la meilleure façon de recevoir l'information était le livre imprimé, mais aujourd'hui, au contraire, nous exigeons des alternatives comme la recherche, la copie et le mouvement de l'information, la classification, la modification et la manipulation de celle-ci. Toutes sont des options qui ne nous donnaient pas les textes traditionnels connus jusqu'ici, mais dans la société numérique actuelle les choses sont très différentes.

L'utilisation de l'OCR est très répandue sur le marché basque, mais cela représente un important travail de correction ultérieure. En Euskal Herria, nous avons de nombreux journaux, magazines et éditeurs, et dans la plupart des cas, leur fonds documentaire n'est pas enregistré au format numérique. La diffusion d'Internet, cependant, a rendu nécessaire que tous ces fonds documentaires soient dûment numérisés et recueillis pour organiser des systèmes de catalogage et de recherche plus rapides.

En corrigeant un texte en basque en utilisant l'information en anglais, des erreurs se produisent dans le programme qui font des propositions inadéquates.

L'OCR (Optical Character Recognition) est la connaissance par ordinateur des caractères de texte écrits ou imprimés. Cela signifie que lorsque nous utilisons le logiciel OCR, nous analysons chaque caractère comme une photo, puis nous analysons cette image scannée et la retournons à un code de caractères normal (par exemple, ASCII).

La précision du système OCR est limitée par trois facteurs: la qualité du document original, la qualité de l'image créée par le scanner et l'interprétation que fait le logiciel OCR sur ce dernier. Ici, nous parlerons de la dernière.

Ce que fait l'OCR, en un mot, est de convertir l'image numérisée en texte. Pour ce faire, il analyse les différents points qui composent l'image et distingue les trous qui existent entre eux. Ce processus est appelé segmentation et se fait en trois étapes: les premières lignes sont séparées (segmentation en ligne), l'isolement des mots est effectué (segmentation des mots) et enfin les caractères sont distingués (segmentation des caractères). Cette dernière phase est plus simple si tous les caractères sont de la même largeur, et se complique beaucoup s'ils sont joués entre eux, s'ils sont mélangés avec d'autres marques de ponctuation ou si la largeur dépend de la forme du caractère.

Pour réaliser la connaissance de caractère, il est nécessaire que le système OCR connaisse tous les caractères de la langue du texte scanné. Si des doutes survenaient avec les caractères, j'attendrais que le mot soit complété, processus dans lequel il sera utile d'avoir un dictionnaire de cette langue pour pouvoir l'assimiler. Ainsi, en utilisant un jeu de probabilités et en évaluant si c'est un mot du dictionnaire, le système sélectionnera un ou l'autre caractère.

La correction d'un texte en basque avec information en espagnol génère des erreurs et le programme fait des propositions inadéquates.

Apparemment, l'existence d'un alphabet et d'un dictionnaire dans cette langue suffirait à appliquer correctement l'OCR, mais dans le cas de l'euskera, ce n'est pas le cas. Dans ce cas, vous ne pouvez pas fournir une liste complète des mots possibles, c'est à dire, vous ne pouvez pas créer un dictionnaire, car étant une langue déclinée, de chacune des racines de mots sont trop de formes de mots. Les outils linguistiques vont être une grande aide dans cette étape, c'est-à-dire en travaillant les principales caractéristiques de l'euskera nous pouvons obtenir de grandes améliorations dans le développement d'un système OCR. Par exemple, les groupements de caractères ou de mots (ts, tz, tx, ou bandes) qui sont effectués en basque sont moins courants dans le reste des langues européennes.

Avec la plupart des logiciels OCR actuellement utilisés, lorsque nous voulons analyser un texte en basque, nous devons utiliser le vocabulaire d'une langue en espagnol. Cependant, dans ces cas, il est préférable de ne pas utiliser de vocabulaire que celui d'une autre langue pour ne pas faire plus d'erreurs dans le texte. Par exemple, si nous utilisons un dictionnaire anglais, il est presque certain qu'il remplacera la plupart des apparitions de six mots par le set. Si on utilise l'espagnol, l'apparition du mot énergie le remplacera par le mot energ (tilde).

Le résultat du projet développé à ELEKA est que le logiciel OCR le plus utilisé aujourd'hui, le programme Omnipage, a été ajouté une correction en basque avec les informations morphologiques du basque. Ce programme, pour le cas de l'euskera, est prêt à faire le pas de convertir l'image scannée en un caractère. À ce jour, cependant, il n'était pas préparé pour la phase postérieure de vérification et de correction des mots (bien qu'il soit destiné aux langues majoritaires: anglais, allemand). Les intentions suivantes consisteront à ajouter un correcteur OCR comme Xuxen pour les processeurs de texte Microsoft Word et OpenOffice, pour mettre à la disposition des utilisateurs qui n'utilisent pas Omnipage le système OCR en basque.

Par conséquent, grâce à l'incorporation d'outils linguistiques en basque, l'outil qui numérise le mieux les textes en basque a été développé. En d'autres termes, ELEKA a développé un outil qui comprend et dirige l'euskera automatiquement lors de la numérisation des textes. Pour le développement de ce projet, il a compté sur la collaboration de la Vice-conseillère de Politique Linguistique du Gouvernement Basque, qui se chargera de la distribution de cette application.

En corrigeant un texte en basque en utilisant des informations en basque, on obtient de meilleurs résultats et le programme fait les propositions opportunes.
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila