La calidad del trabajo del traductor humano será, sin duda, mejor y más rica, pero hoy en día es posible crear documentos en un campo concreto y técnico como es la meteorología, utilizando técnicas automáticas. En
este artículo presentamos el sistema interactivo Multimeteo que utiliza la creación textual multilingüe en el ámbito de la meteorología, así como la adaptación que hemos realizado a la creación en euskera. El sistema desarrollado ofrece pronósticos meteorológicos diarios en la siguiente dirección web: http://www.ingurumena.net/udala //www.inm.es/wwi/Multimeteo/Multimeteo.html
Aunque no se utiliza la creación automática de textos, hay que mencionar aquí un sistema que traduce automáticamente las predicciones meteorológicas. El sistema METEO creado por el grupo TAUM de Montreal ha sido el sistema de traducción más exitoso de todos los tiempos. Era difícil encontrar traductores para traducciones aburridas que se parecían a diario, y el servicio meteorológico oficial de Canadá comenzó a investigar las vías automáticas. El sistema METEO obtenido ha estado traduciendo boletines meteorológicos del inglés al francés desde 1977, y el 80% de su traducción es totalmente directa. Sin embargo, el éxito de la meteorología no se ha extendido, ya que aunque el sistema se ha adaptado a otras cuestiones, no se han obtenido resultados de igual calidad. Parece que el ámbito de las predicciones meteorológicas tiene una especial adecuación a este tipo de procesos automáticos.
El entorno de trabajo Forecast Generator (FoG) también se puso en marcha en Canadá en 1993. En este sistema, el meteorólogo utiliza un editor gráfico para adaptar el mapa que muestra los datos meteorológicos y posteriormente el sistema genera automáticamente la predicción meteorológica en inglés y francés para la región.
En 1995 el Servicio Meteorológico Francés (Meteo France) impulsó el proyecto MultiMeteo para la publicación de las previsiones meteorológicas en varios idiomas. Para ello se puso en contacto con el Instituto Nacional de Meteorología (INM) de España, el Royal Meteorological Institute (RMI) de Bélgica, el Zentralanstallt für Meteorologie und Geodynamik de Austria (ZAMG) y dos empresas especializadas en la creación lingüística: Lexiquest, con sede en París, y CL Servicios Lingüísticos de Madrid. El servicio de meteorología alemán (DWD) también se unió inicialmente, pero fue abandonado posteriormente.
Estas asociaciones presentaron el proyecto denominado “Multilingual Production of Weather Forecasts” y obtuvieron financiación comunitaria. El sistema se desarrolló en cuatro idiomas: francés, inglés, castellano y alemán. Los resultados de la evaluación realizada en febrero de 1999 fueron muy positivos.
En el año 2000 INM y Lexiquest alcanzaron un acuerdo para extender el sistema a cuatro lenguas más: el holandés, el catalán, el gallego y el euskera. El Grupo Ixa y el Centro de Terminología UZEI de la Facultad de Informática de San Sebastián nos hemos encargado de la difusión al euskera, y en este momento estamos a punto de finalizar la fase de desarrollo del proyecto.
Para la recogida de datos meteorológicos se utilizan dos fuentes: la recogida superficial de datos y la recogida espacial. Los datos superficiales se toman en los observatorios meteorológicos, en los que se miden y recogen en todo momento las variables físicas que describen el estado de la atmósfera. Otros datos que se obtienen del espacio son los satélites meteorológicos, los satélites geoestacionarios METEOSAT y los satélites polares de la serie TIROS-NOAA, que no para de enviar información.
Todos los datos numéricos obtenidos se procesan mediante complejos modelos matemáticos. Los procesos automáticos simulan la evolución de las variables físicas en los próximos días, generando matrices de datos para predicciones meteorológicas. El meteorólogo tiene entonces la oportunidad de retocar estas matrices de datos, es decir, de completar y redondear la previsión con su experiencia. Como conclusión, tal y como se observa en la Tabla 1, las matrices presentan datos de temperatura (Te), dirección del viento (DD) y fuerza (FF), nubes, lluvia, etc. para diferentes horas (periodos de 3 horas en el caso del sistema del INM). Para cada punto del mapa se obtiene una matriz de este tipo.
Con estos datos los meteorólogos crean las predicciones meteorológicas manualmente. Este trabajo resulta muy largo y costoso, sobre todo cuando de una sola predicción hay que hacer varias versiones en diferentes idiomas o estilos (predicciones generales, de playas, de mar, de montaña, por comunidad, por provincia...).
Ahí está el interés de MultiMeteo. No se trata de sustituir la obra de los meteorólogos, sino de contribuir de manera interactiva a sus tareas, de manera que se puedan difundir las predicciones en diferentes idiomas y estilos. Además, permite realizar predicciones para diferentes lugares del mapa.
Esta técnica, en primer lugar, mediante la creación automática, genera un borrador a partir de datos de entrada quizá incompletos. Aunque tiene la capacidad de crear texto en varios idiomas, al meteorólogo, para actuar como corrector, se le ofrece únicamente en su lengua materna. Si el meteorólogo desea realizar una corrección en un fragmento de texto, deberá hacer clic en la parte que desee modificar. A continuación, el menú “pop-up” le ofrecerá una serie de opciones y modificadores alternativos, eligiendo uno de ellos para realizar la corrección de forma cómoda. Teniendo en cuenta los cambios realizados, el sistema generará textos predictivos en todos los idiomas.
Las ventajas de esta técnica son la rapidez (para producir cada texto en cada idioma se necesitan unos 2 segundos; un traductor humano necesita unos 10 minutos); la viabilidad de la creación, aunque algún dato no se haya recogido todavía, la alta calidad de los textos creados (a veces con toques humanos); la facilidad de mantenimiento y adaptación; y por último, la aceptación por parte de los usuarios humanos (a los meteorólogos no les quitará el puesto de trabajo, sino que les ayudará a escribir en lenguas extrañas).
MultiMeteo realiza la creación de dos formas:
Predicción meteorológica *IS *CO. *MO *FD.
Hora Local: *FP.
Valor del anuncio: *TT.
donde:
El motor de generación utilizado por el sistema se desarrolló en 1994 en francés para la generación automática de cartas comerciales. En 1995 se extendió al inglés integrándose en un prototipo de traducción de manuales técnicos. Y el mismo año también se integró en el proyecto “Multilingual Production of Weather Forecasts” para incorporar nuevos lenguajes y funcionalidades en la creación de boletines meteorológicos (creación interactiva y gestión de conocimientos estilísticos).
La arquitectura del sistema se puede ver en la figura 2. La primera fase consiste en la obtención y reformateo de una base de datos meteorológicos que permita la utilización de módulos de generación. Posteriormente, la tarea del módulo de creación se divide en dos partes: planificar y ejecutar.
La planificación utiliza bases de conocimiento de conceptos y estilos (UE) y se divide en dos fases:
El suceso es un objeto conceptual asociado a la situación meteorológica o evolución de la situación. Los fenómenos son de dos tipos: atómicos y moleculares.
El suceso atómico representa un parámetro meteorológico sin evolución, con un único valor asociado ( atributo Value). Por ejemplo, el suceso atómico que representa el cielo cubierto es:
Event_CloudCovering4: Event{} Value=Class CloudCovering_code4 es un conjunto de conceptos simples: Overcast, NoSun y VeryCloudy-Overcast. Cada uno de estos conceptos está asociado a un término en cada lengua.
El suceso molecular indica más de un parámetro. Por ejemplo, cuando hablamos de viento podemos tener fuerza, dirección y datos de evolución. Pueden llevar varios valores ( Value0 , Value1 , etc. atributos), así como un operador (atributo Operator) que especifica la forma de recoger estos valores. Por ejemplo, el suceso molecular para describir el cielo sin nubes a estar cubierto es:
GrowingCloudier_Min0: Event_mol{ Value0=Este suceso molecular se manifiesta mediante dos episodios atómicos y un operador. Sirve para situar los eventos time - representation en el tiempo (presente, pasado o futuro) e indica el periodo (día, mañana, tarde, noche...).
A la salida del módulo de planificación se selecciona un concepto para cada evento atómico y para cada clase de atributo Operator de los eventos moleculares. Además, se pueden añadir otros atributos (automáticamente o en interacción con el meteorólogo): índice de probabilidad, fase, periodo...
El módulo para materializar lingüísticamente los conceptos obtenidos en cada lengua está basado en la Teoría del Significado - Texto (Mel’cuk 1988, Polguère 1988). En esta fase se utiliza una base de conocimiento lingüística que se divide en cinco etapas: predenotación, semántica, sintaxis profunda, sintaxis superficial y morfología.
El trabajo computacional para la difusión del sistema MultiMeteo al euskera ha sido desarrollado por el grupo IXA y el trabajo terminológico ha sido realizado por UZEI. Las adaptaciones al gallego y catalán se han realizado a partir de la versión castellana, y han tenido que trabajar sobre todo el léxico, ya que no se requería grandes cambios en sintaxis y morfología. Para el euskara, aunque hemos partido del castellano (y en ocasiones del francés), la mayoría de las estructuras de las frases han sido modificadas y hemos tenido que trabajar especialmente con marcas de declinación morfológica.
Comenzamos nuestro trabajo en tres fases:
La adaptación la realizamos en tres subfases: primero abordamos los sucesos atómicos (por ejemplo, el “cielo, cubierto”), luego los sucesos moleculares que eran fáciles (por ejemplo, el “viento, débil, del norte”), y finalmente, los sucesos moleculares que presentaban especiales dificultades (por ejemplo, el cielo, inicialmente cubierto, con lluvia, posteriormente muy cubierto temporalmente).
En cada una de las fases de adaptación se realizó un análisis lingüístico previo, un análisis y diseño de la información a incluir en la base de conocimiento, una introducción y prueba de la información de un ejemplo representativo para cada evento y, finalmente, una introducción y prueba de todas las posibilidades para cada tipo de evento.
Las principales características de esta adaptación son:
Si posteriormente se quisiera ampliar el sistema con otros estilos, se deberían utilizar más casos de declinación, por lo que habría que introducir estos casos en el diccionario. Veamos, por ejemplo, la introducción del vocabulario de la palabra lluvia:
BA_Euri1 :En la tabla 3 se puede observar cómo se han materializado varios conceptos atómicos en euskera (se incluye la realización en castellano y francés de referencia).
En la Tabla 4 se puede observar la ejecución de varios conceptos moleculares. Las variables indican, cuando se indican, los valores de este suceso: Variables N estado de las nubes (oscarbia, bajo nube, cubierto...); Variables DD dirección del viento (norte, suroeste, etc.); Las variables FF son la fuerza del viento (moderada, fuerte,...); Variables TS precipitaciones (lluvia, sirimiri...), Periodo PER (mañanas...)...
El proyecto se encuentra actualmente en las últimas fases de desarrollo. El siguiente paso es una prueba masiva para analizar posibles errores en el sistema. A continuación realizar los cambios necesarios y la evaluación final. Sin embargo, la adaptación realizada está ya integrada en el sistema del INM y cada día se ofrecen las previsiones meteorológicas de las comunidades del estado español en la web http://www.inm.es/wwi/ MultiMeteo/Multimeteo.html.
Además de la escritura telegráfica del objetivo general, la realización de predicciones de propósito especial (para playas, montañeros, esquiadores...) y la elaboración de escrituras más ricas (por ejemplo, la introducción de verbos con frases completas) serían pasos factibles a medio plazo. Este tipo de versiones completas se han realizado en francés y se utilizan en la actualidad. De momento bastaría con analizar la utilidad del sistema desarrollado para el euskera, y si posteriormente se detectara la necesidad, entonces habría que abordar la organización de las mejoras mencionadas.