Con el ordenador en la corrección de textos

Cualquier texto, por supuesto, ha tenido un proceso de corrección previo a su publicación. Todos los conocemos porque son pruebas provisionales que suelen venir de la imprenta en buel cuando se imprime algo; antes de comenzar la maqueta de imprenta del ejemplar definitivo, el autor o la autora tiene que fijarse con cuidado y hacerlo con orden. Sin embargo, muchas veces –por no decirlo siempre– se echa un vistazo a ese corrector y difícilmente encontraremos ningún texto vacío.
CONEXIÓN MINITER
1. Encender el terminal.
2. Levantar el teléfono y marcar el número marcado.
3. Tono(s) de llamada, alto y bajo.
4º Pulsar la tecla CONEXIÓN/FIN. Aparece en pantalla "CONEXIÓN REALIZADA".
5. Colgar el teléfono.

En la actualidad, cada vez más, los textos son computados con la ayuda de un programa de procesamiento de textos que ofrecen una gran facilidad y ayuda para posteriores tareas de corrección y revisión.

En la producción de textos en euskera, además de los problemas de cualquier lengua (errores de tecleado, etc.), también aparecen otros aspectos desde el punto de vista de la corrección. Ahí están, entre otras cosas, los errores de todo tipo que se derivan del hecho de que la persona que maquina el texto o lo compone en la imprenta sea una persona sin alfabetizar, o en castellano, los problemas que afectan a la situación particular de unidad lingüística actual, que en los últimos años el euskera se ha extendido a infinidad de nuevos campos, etc.

Por todo ello, siguen apareciendo diversas "irregularidades" en los textos en euskera. Cada vez menos. Parece que cada vez son menos los errores debidos al desconocimiento de las normas o a la negligencia. Pero la necesidad de corrección está ahí y estará ahí.

¿Y en qué puede ayudar el ordenador? Ya se ha comentado que el uso del ordenador en la producción actual es cada vez más frecuente debido a las facilidades que ofrecen los programas de procesamiento de textos. Entre estas facilidades se encuentran, entre otras, las ayudas para adaptar el formato del texto, para cambiar de un texto a otro, para introducir nuevos textos sin necesidad de reescribir todo el texto, etc. Además, están apareciendo sistemas que permiten comprobar automáticamente la ortografía de lo que escribimos en varios idiomas, sobre todo en inglés, por supuesto, pero también en otros más cercanos. Algunos de estos sistemas quieren ir más allá, ofreciendo ayudas en la corrección por puntos, sintaxis y estilo.

Por lo tanto, a partir de ahora tendremos la oportunidad de realizar una corrección ortográfica en los menús de los programas de procesamiento de textos, pero es evidente que el sistema que dará esta ayuda no es para todos los idiomas, sino que deberá tener una versión diferente para cada idioma. Y para el euskara, yo creo que si no lo hacemos aquí, al menos para un tiempo. En breve dispondremos –ya existen– de sistemas que nos van a ofrecer esta ayuda, aunque en sus originales en castellano lo permitan.

Vamos a ver qué problemas presenta esta corrección automatizada. De momento nos limitaremos al ámbito de la ortografía.

Tenemos dos tipos de programas o sistemas: por un lado, ortografías verificadoras, es decir, que nos dan a conocer las palabras que aparecen mal escritas en ese texto y que luego deberemos corregir. Por otro lado, disponemos de ortografías rectificativas o que nos permiten realizar una revisión ortográfica y realizar una corrección en interacción con el ordenador, proponiendo para ello posibles alternativas a la palabra errónea o considerada errónea.

Las primeras investigaciones en este campo datan de 1957. El primer producto acabado es el programa denominado SPELL (1971).

La única tarea de los primeros programas era proporcionar un listado de las diferentes palabras de un texto (ordenado generalmente con frecuencia de aparición). Luego alguna persona con paciencia analizaría esa lista y encontraría palabras mal escritas (ten en cuenta que los errores aparecían al final de la lista debido a su baja frecuencia). Los siguientes programas han comenzado a realizar un cierto análisis de las palabras (basado sobre todo en el análisis de digramas y trigramas, es decir, teniendo en cuenta las distintas frecuencias que tienen las diferentes parejas de letras y triples de letras en cada lengua, se podría calcular un índice de singularidad de la palabra), que sólo enumeran aquellas que podrían estar mal escritas. Pero la particularidad de los programas actuales es que son programas que utilizan el vocabulario. Es decir, para saber si una palabra está correctamente escrita o no, se recurre al diccionario: si la palabra se encuentra ahí se da por buena y si no.

La construcción del diccionario es muy importante en estos sistemas. Y es que la medida del diccionario pasa por una decisión fundamental: ¿qué incluir y qué no?. Sin pensar demasiado, parece que lo mejor es meterlo todo. Pero enseguida nos daremos cuenta del peligro de hacerlo: este diccionario tendrá muchas palabras obsoletas, la mayoría inútiles, y la posibilidad de dar por buenas las palabras comunes mal escritas será mayor. Euskera, por ejemplo:

con la palabra 'aueta' en el diccionario

aueta

(bn-gar), augeta (bn-sal) serenata, alborada / aubade, sérénade (Col.)

'

tendrá que aceptar la palabra 'auetako', aunque sea mucho más seguro que en lugar de escribir 'estos' es un error.

Los errores del vocabulario escaso también son evidentes, con el peligro de que las palabras bien escritas (por no estar en el diccionario) sean consideradas malas.

Además, de cara a la eficacia de estos sistemas es evidente que una de las tareas más críticas a realizar es la búsqueda en el diccionario, por lo que la medida y organización del diccionario resultan factores muy importantes. La estrategia más utilizada para ganar tiempo en la búsqueda consiste en el tratamiento de las palabras de mayor frecuencia: a través de un análisis estadístico se identificarán estas palabras y la búsqueda en el diccionario se dividirá en dos niveles: primero se comprobará si la palabra del texto está entre las de mayor frecuencia (esta búsqueda se realizará con aguro, ya que no son tantas palabras), y si no existe (y sólo entonces) se recurrirá al diccionario general. En este subdiccionario de palabras de mayor frecuencia se podría disponer de un número de palabras que oscila entre 250 y 500, de las cuales se espera que aproximadamente el 50% de las palabras del texto estén comprendidas.

Hasta ahora nos hemos limitado a las ortografías verificadoras. Sin embargo, la mayoría de los programas que actualmente están a la venta también ofrecen ayuda para la corrección interactiva: tenemos ortografías rectificativas. Su peculiaridad radica en la forma de trabajar. Mientras el programa realiza la verificación ortográfica el usuario se encuentra ante la pantalla. En el momento en que el programa detecte algún error, hará notar la palabra en la pantalla y preguntará al usuario qué debe hacer. Entonces el usuario tiene diferentes opciones: puede corregir la palabra o pedir al sistema que le dé alternativas posibles a esa palabra y luego elegir entre ellas, por supuesto correcta. Tampoco se le negará la posibilidad de mantener la palabra. Además, la mayoría de los sistemas manejan un vocabulario del usuario en el que el usuario no conoce el sistema y puede introducir ciertas palabras que él mismo utiliza habitualmente. Una vez que vuelva a aparecer, el sistema no los considera erróneos.

Ante todo esto, hay meses en los que se ha iniciado un proyecto que tiene como primer objetivo el corrector ortográfico para el euskera. En este proyecto participan la empresa de servicios del área informática APIKA, UZEI y el equipo dedicado al procesamiento del lenguaje natural en la Facultad de Informática de San Sebastián. Como se ha dicho, la primera intención de este grupo es ofrecer una ortografía correctora interactiva a todo aquel que escribe en euskera con la ayuda del ordenador. Recuérdese que, por el momento, nos referimos a la ortografía y, por tanto, a esa sucesión de caracteres para admitir una palabra (sucesión de caracteres entre espacios), sin tomar conciencia de su contexto. Yo creo que muchos de los errores que aparecen en los textos en euskera no pueden corregirse de esta manera, ya que a menudo son errores de sintaxis o de otros.

Por ejemplo, la enseñanza, el examen, o la escritura de los entresijos, se consideran equivocados, pero no se va a atrapar en nada vacío, como me has dicho, en frases como hoy lunes, porque las palabras pueden ser aprobadas individualmente. Para poder detectarlos, además de la mera información ortográfica de vocabulario, es necesario otra gran cantidad de información, como la proporcionada por el análisis morfosintáctico de la oración. Dejemos esto para después, porque no es un trabajo lento, aunque algún día habrá que abordarlo.

Anteriormente se ha mencionado al equipo del área de tratamiento del lenguaje natural que forma parte del proyecto. Los lenguajes artificiales utilizados habitualmente en el mundo de la informática han dado lugar a una curiosa denominación de lenguaje natural para hablar del lenguaje común. La importancia de este campo, que se centra en la comprensión de la lengua y la creación automática de la lengua, es cada vez mayor. Por un lado, la importancia de poder comunicarse con los ordenadores en lenguajes naturales (en nuestro caso, en euskera), y por otro, la aportación que esta adaptación a la lógica y sistemas de los ordenadores supone al conocimiento teórico de la propia lengua.

La existencia de una serie de herramientas y sistemas generales para este campo de trabajo del procesamiento del lenguaje natural hace que cada lengua requiera su propia infraestructura: los básicos en cualquier lengua son analizadores morfológicos y sintácticos automáticos. Luego vendrán los problemas más confusos de la semántica y la pragmática.

Una lengua con un alto grado de flexión como el euskera presenta problemas morfológicos especiales cuando se quiere hacer frente a su tratamiento automático. Sin embargo, resolviendo estos problemas, la información obtenida del mismo análisis morfológico resulta mucho más rica que en otras lenguas con una morfología más simple. Esta información es de gran importancia en los niveles posteriores al análisis, es decir, cuando se pretende analizar la sintaxis y la semántica del lenguaje. En lenguas como la nuestra, el análisis morfológico es el primer problema que cualquier sistema de tratamiento lingüístico deberá resolver.

Por otro lado, hemos hablado de la importancia de las medidas del vocabulario que necesita el corrector ortográfico. Es evidente que en lenguas como el euskara, cada palabra hablada con todas sus flexiones (y sólo hablamos de flexiones a nivel de declinación) aumentará enormemente el vocabulario, ya que el tiempo de búsqueda es demasiado largo. En otras lenguas (piénsese por ejemplo en la morfología del inglés) este problema ha sido subestimado y a veces ha introducido todas las formas de palabra en el diccionario. En las lenguas de morfología más compleja, sin embargo, este problema debe abordarse adecuadamente y en el vocabulario sólo habrá lemas, aunque el tratamiento resulte más complicado.

De acuerdo con lo dicho, comprobar la corrección ortográfica de una palabra no es sólo asegurar que esa palabra está en el diccionario. Porque la palabra completa no tiene nada que ver en el diccionario. Cuando la raíz de la palabra está en el diccionario de los lemas, más la sucesión de sufijos que podrían asociarse a ese lema, será por detrás lo que hay que verificar, para que la palabra sea aceptada. Por lo tanto, se realizará un análisis morfológico (aunque no exhaustivo) de la palabra para verificar su corrección.

Como se puede observar, la relación entre el analizador morfológico y el corrector ortográfico es extremadamente estrecha y puede apreciarse como subproducto del bautismo. Ambos desearían ser, pues, los primeros resultados de este grupo, que partía de la tarea de romper el camino del tratamiento automático del euskera.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila