En Cataluña, donde las grandes empresas ofrecían hasta hace poco solo servicios de tecnología del habla en castellano, las desarrolladoras de software libre se han unido por medio de grupos de defensa de la lengua, cada una con un interés específico. Unas quieren, en primer lugar, garantizar el uso del catalán en el mundo digital, y las otras están interesadas a crear alternativas a los productos de las grandes empresas para que las usuarias tengan el control sobre sus datos.
Con la ayuda de una comunidad de voluntarias dispuesta a grabar y validar muestras de voz se ha creado un primer prototipo de asistente de voz que es capaz de reconocerla, entender el mensaje y generar una respuesta con voz humana en catalán. El objetivo, pues, es que la tecnología entienda y hable el catalán.
Proyecto AINA
Impulsado por el Departamento de Políticas Digitales, con la colaboración del BSC, se trata del proyecto AINA, pensado para generar corpus y modelos informáticos de la lengua catalana para que las empresas que crean aplicaciones basadas en inteligencia artificial (IA), como por ejemplo asistentes de voz, traductores automáticos, agentes conversacionales, etc, puedan hacerlo fácilmente en catalán.
El proyecto ha sido bautizado con el nombre de AINA en homenaje a la filóloga menorquina Aina Moll, figura central de la promoción y la normalización del catalán y primera Directora General de Política Lingüística de la Generalitat de Cataluña del 1980 al 1988.
El proyecto AINA tiene un presupuesto global de 13,5 millones de euros para el periodo 2020-2024 y es uno de los proyectos priorizados por el Departamento de Políticas Digitales para ser financiado con los fondos europeos NextGenerationEU. De momento, el proyecto arranca con una aportación inicial de 250.000€ que el Departamento de Políticas Digitales ha asignado al BSC para ampliar los corpus de la lengua catalana y así obtener modelos lingüísticos que alcancen las diferentes variantes y registros.
Nuestra lengua es tu voz
El próximo paso será generar los modelos de la lengua, modelos de habla y modelos de traducción utilizando redes neuronales multicapa.
Precisamente, el Proyecto AINA ha facilitado una plataforma en línea con CommonVoice, para recoger la grabación de millones y millones de horas de voz en catalán de personas de todas las edades, variedades dialectales y registros. Cada grabación, servirá para construir el diccionario oral de catalán, que toda máquina necesita para aprender nuestra lengua.
Será un diccionario abierto y accesible a todo el mundo, y esta base de datos podrá ser utilizada por todas las compañías tecnológicas. Todo el mundo puede participar en este enlace.
Laia y Aina por el catalán en el ámbito digital
El catalán, como otras muchas lenguas minoritarias, se encuentra en una situación difícil en el ámbito digital, donde los idiomas más hablados del mundo se imponen en un mercado cada vez más global. En Parlem somos conscientes y tenemos un bot conversacional. Se llama Laia y fue el primer chatbot de inteligencia artificial en catalán.
Esperamos que, como Laia, Aina permita que el catalán haga un salto cualitativo y cuantitativo en el ecosistema digital, y que la ciudadanía pueda participar en catalán en el mundo digital al mismo nivel que los hablantes de una lengua global, como por ejemplo el inglés, y evitar así la extinción digital de la lengua.