Investigadores del CITIC asisten al ACL 2019 para presentar sus últimos avances en Procesamiento del Lenguaje Natural

31/07/2019 - CITIC

Un año más, investigadores del CITIC del área de Inteligencia Artificial asisten estos días en Florencia al 57th Annual Meeting of the Association for Computational Linguistics (ACL 2019), el congreso más importante a nivel mundial en el campo del Procesamiento del Lenguaje Natural.

Por una parte, Carlos Gómez, David Vilares y Michalina Strzyz, presentarán sus últimos avances en el marco de la Starting Grant FASTPARSE de la ERC. El primero de estos trabajos, “HEAD-QA: A Healthcare Dataset for Complex Reasoning”, analiza el rendimiento de las técnicas de Búsqueda de Respuestas (Question Answering) basadas en redes neuronales ante preguntas reales de los exámenes MIR y EIR de acceso al sistema público de salud. El segundo de ellos, “Sequence Labeling Parsing by Learning Across Representations”, describe una novedosa técnica basada en etiquetado de secuencias capaz de aprender, a la vez, a analizar sintácticamente un texto en base tanto al paradigma de constituyentes (constituency parsing) como el de dependencias (dependency parsing). Esto contrasta con los métodos actuales, que abordan ambos por separado.

Por otra parte, Marcos García, investigador Juan de la Cierva-Incorporación del LYS, presentará los avances en otra de las líneas de investigación de referencia del grupo: el procesamiento de colocaciones lingüísticas y expresiones multipalabra, de gran impacto tanto en el procesamiento sintáctico como semántico de un texto (p.ej. en sistemas de traducción). En el primero de estos trabajos, “Pay attention when you pay the bills. A multilingual corpus with dependency-based and semantic annotation of collocations”, se da a conocer un nuevo corpus multilingüe (español, portugués e inglés) anotado a nivel de colocaciones y con información semántica. Sin este tipo de recursos lingüístico-computacionales no sería posible abordar tareas complejas de procesamiento del lenguaje natural como pueden ser, en este caso, el desarrollo de herramientas de apoyo al aprendizaje de idiomas o la generación del lenguaje natural (p.ej. para asistentes virtuales). 

Dentro ya del ACL Workshop on Multiword Expressions and WordNet (MWE-WN 2019), Marcos García presenta otras dos contribuciones. La primera de ellas (en colaboración con Marcos García Salido y Margarita Alonso Ramos) , titulada “A comparison of statistical association measures for identifying dependency-based collocations in various languages” muestra una de las principales aplicaciones lexicográficas del anterior corpus, la evaluación de técnicas, en este caso estadísticas, para la identificación y extracción automática de colocaciones en textos. El segundo de ellos, “Unsupervised Compositional Translation of Multiword Expressions”, fruto de la colaboración con el investigador Pablo Gamallo del CiTIUS (USC), propone una nueva técnica no supervisada de traducción de expresiones multipalabra. Esta técnica, basada en el empleo dependencias sintácticas, permite prescindir de los clásicos corpus paralelos (i.e. con los mismos textos disponibles en varios idiomas a la vez) y emplear únicamente corpora monolingües. Esto supone un notable avance en este campo, sobre todo de cara a idiomas con menos recursos lingüístico-computacionales disponibles, como es el caso del gallego. 

Finalmente, el investigador Juan de la Cierva presenta, esta vez en el ACL Workshop on Computational Approaches to Historical Language Change (LChange’19), el trabajo “A method to automatically identify diachronic variation in collocations”. Éste, que entroncaría con el campo de las llamadas Digital Humanities (Humanidades Digitales), describe un método de análisis diacrónico de colocaciones que, partiendo de corpora históricos, analiza su uso a lo largo del tiempo y, en caso de desaparecer, es capaz de proponer alternativas empleando técnicas de semántica distribucional.   

Más información sobre estas publicaciones, en la web del proyecto europeo FASTPARSE.