Mākslīgā intelekta rīks palīdz transkribēt latgaliešu runu

No audio faila mākslīgā intelekta rīks latgaliešu valodas runu īsā laika sprīdī transkribē tekstā – standartizētā latgaliešu rakstu valodā.

LU MII zinātniskā asistente Kristīne Pokratniece atzina, ka rīks viņai būs lielisks palīglīdzeklis: “Esmu daudz veikusi intervijas, piemēram, ar savu vectēvu, uzzinot viņa dzīvesstāstu. Viņš ar mani runā latgaliski, un sava slinkuma pēc vai kā, bet tās intervijas es neesmu atšifrējusi. Tad es uzskatu, ka tas būs brīnišķīgs palīglīdzeklis.”

Savukārt LU MII Mākslīgā intelekta laboratorijas vadītājs Normunds Grūzītis atzina, ka rīks vēl smeļas pieredzi: “Dators klausās, mēģina atkārtot, daudzās interakcijās tam visam ejot cauri. Algoritmi skrūvītes pieregulē procesa laikā, lai tas modelis iespējami labi spētu tikt galā ar šo uzdevumu.”

Vairākus gadus šāds rīks ir pieejams latviešu valodā. Tagad tas apmācīts ar latgaliešu valodas datiem, kas iegūti no Mūsdienu latgaliešu valodas runas korpusa un no projekta “Bolsu tolka”.

“Rēzeknes Tehnoloģiju akadēmijas studenti ir gājuši folkloras ekspedīcijās, un tur ir no 2009. gada audioieraksti. Ir arī jaunāki ieraksti, to skaitā arī Sibīrijas latgaliešu runas ieraksti, ir arī mediju dati,” pastāstīja Rīgas Tehniskās universitātes Rēzekne docente, vadošā pētniece Antra Kļavinska.

Šobrīd latgaliešu runas atpazīšanas un transkribēšanas rīks vēl nav pilnīgi precīzs – katram ir iespēja veikt labojumus atšifrējumā. Problēmas  rada izlokšņu dažādība. Modeļa uzlabošanai nepieciešams vēl lielāks runas datu apjoms. Ikviens tam var dot savu pienesumu, ielasot kādu teikumu “Bolsu tolkā” latgaliski.

“Mums ir ļoti svarīgi dažāda veida runātāji. Ar dažādību es domāju vecumu, dzimumu, kas ietver sevī arī runas dažādības.

Kāds runā ātrāk, kāds lēnāk. Kādam varbūt ir vēl akcents, arī izlokšņu īpatnības ir tiešām svarīgas,” skaidroja zinātniskā asistente Pokratniece.

Šobrīd projektā “Bolsu tolka” 361 runātājs ielasījis 31 stundu latgaliski. Runas atpazīšanas un transkribēšanas rīka attīstībai jaunā līmenī vēl būtu nepieciešams trīskāršs runas datu apjoms.