MICROSERVICES AT YOUR SERVICE: un proyecto para ayudar a difundir herramientas PLN en idiomas diferentes al inglés

Gradiant participa en un proyecto europeo para potenciar el ELG y mejorar la difusión de herramientas PLN en idiomas peninsulares y nórdicos

Con este proyecto se pretende visibilizar los idiomas peninsulares en este ámbito a nivel internacional

 

Gradiant está trabajando en el proyecto europeo Microservices at your service: bridging the gap between NLP research and industry, que propone ayudar a que las herramientas de procesado de lenguaje natural (Natural Language Processing, NLP o PLN en español) sean más conocidas y accesibles a un público más amplio haciéndolas disponibles a través del repositorio European Language Grid (ELG). Esta plataforma en la nube proporciona acceso a cientos de tecnologías lingüísticas comerciales y no comerciales para todos los idiomas europeos, herramientas y servicios en ejecución, así como conjuntos de datos y recursos con el fin de actuar como las páginas amarillas de la tecnología lingüística europea.

De este modo, Joaquín Lago, ingeniero-investigador en el área de Sistemas Inteligentes de Gradiant explica que “esperamos que este proyecto enriquezca el European Language Grid con un amplio conjunto de herramientas de PLN que facilite su uso tanto para la investigación como para el desarrollo de nuevos servicios”.

Así, el objetivo del proyecto es mejorar la difusión de las herramientas PLN en idiomas como el castellano, portugués, islandés, noruego o sueco, entre otros, ya que los principales modelos se generan para el inglés, por lo que encontrar recursos para otros idiomas es más complejo.

Al mismo tiempo, se pone el foco en idiomas de nuestra región como el castellano, portugués y demás lenguas de la península Ibérica para facilitar a los investigadores y desarrolladores de software la utilización de estas herramientas en sus estudios y creación de servicios, así como facilitar que las inteligencias artificiales actúen de forma más cercana posible a lo que una persona esperaría de otra en una conversación.

Iniciado en marzo de 2021, en esta iniciativa participan varias instituciones internacionales como el Centro Tecnológico de Telecomunicaciones de Galicia (Gradiant), la empresa finlandesa Lingsoft y las universidades de Tartu (Estonia) y Reykjavik (Islandia). Además, el proyecto está financiado por el Connecting Europe Facility (CEF) de la Unión Europea en el ámbito de las Telecomunicaciones.

 

Herramientas PNL en lenguas peninsulares y tecnologías del lenguaje

En cuanto al trabajo desarrollado por el centro tecnológico gallego Gradiant, nuestras actividades se centran en el contacto con las instituciones de investigación y la recopilación de herramientas PLN que trabajan en lenguas peninsulares.

Recopilaremos diversos tipos de  recursos y tecnologías del lenguaje (LRT): herramientas, corpus, modelos y gramáticas computacionales, orientados principalmente a los siguientes usos:

  • Extracción de información (IE): servicios que toman texto y lo anotan con metadatos en segmentos específicos. Por ejemplo, el reconocimiento de entidades (NER): la tarea de extraer personas, ubicaciones y organizaciones de un texto dado.
  • Clasificación de texto (TC): servicios que toman texto y devuelven una clasificación para el texto dado de un conjunto finito de clases. Por ejemplo, categorización de texto, que es la tarea de clasificar el texto en categorías organizadas.
  • Traducción automática (MT): servicios que toman texto en un idioma y lo traducen a texto en otro idioma.

Con ello se pretende aportar herramientas para que las instituciones de estos lugares puedan ofrecer mejores servicios en sus idiomas oficiales.