Del Parque Científico

Una empresa de la UMH de Elche participa en un proyecto europeo para crear un banco de información masivo y de uso libre

Sirve para nutrir los conocidos como Large Language Models, entre cuyos ejemplos está el ChatGPT

David Alberola García

Elche | 07.03.2024 09:43

 Una empresa del la UMH de Elche participa en un proyecto europeo para crear un banco de información masivo y de uso libre.
Una empresa del la UMH de Elche participa en un proyecto europeo para crear un banco de información masivo y de uso libre. | UMH

La empresa Prompsit del Parque Científico de la Universidad Miguel Hernández (UMH) de Elche colabora en un proyecto europeo sobre tecnologías del lenguaje de alto rendimiento, que tiene el objetivo de combinar grandes cantidades de datos, diferentes idiomas y computación de alto rendimiento para crear modelos de lenguaje y traducción.

En el proyecto participan también otras cinco universidades y dos centros de supercomputación.

La empresa afincada en el Parque Científico de la UMH de Elche ha diseñado y desarrollado un banco de información (corpus multilingüe masivo y libre) en diferentes idiomas, que incluye textos y oraciones monolingües y bilingües de tipología muy variada.

El valor añadido de ese buzón de información es que se publica con un tipo de licencia que permite a los usuarios hacer un uso libre del mismo, sin tener que solicitar permiso al autor.

El corpus multilingüe desarrollado por la empresa del Parque Científico de la universidad pública ilicitana sirve para nutrir los conocidos como Large Language Models (LLMs), que representan modelos desarrollados por Inteligencia Artificial y diseñados para comprender y generar lenguaje humano de manera avanzada. Uno de los ejemplos de LLMs más representativos sería ChatGPT.

Para construirlo se recopila de manera automática cualquier contenido útil que se encuentre en Internet. El banco de datos desarrollado tiene en la actualidad contenido en 75 idiomas, compuesto por textos sin traducir; y 18 pares de lenguas, compuestos por textos traducidos.