Gå til hovedinnholdGå til hovedmeny

Bedre norsk tale til tekst

person leser på mobiltelefon
Språkbanken ved Nasjonalbiblioteket har testet hvor gode talegjenkjenningssystemene er til å transkribere norsk tale til bokmål og nynorsk. Resultatet er godt nytt for alle som har nytte av å kunne gi instruksjoner med stemmen, diktere eller få tekstet videopptak. Selv om talegjenkjenningssystemene er blitt mye bedre, er konklusjonen at det fremdeles er rom for forbedring. Noen dialekter er for eksempel enklere å transkribere enn andre.

Les hele rapporten: «Status for norsk talegjenkjenning», Nasjonalbiblioteket (2024)

Taleteknologi er en gren innen kunstig intelligens som har tatt sjumilssteg de siste par årene. Å transkribere naturlig, spontan tale er imidlertid vanskeligere enn å transkribere en ferdig tekst på korrekt norsk som leses inn. En av utfordringene med transkribering har derfor vært å få naturlig spontan tale til god tekst. Når man snakker fritt seg imellom, snakker man på en helt annen måte enn slik en skrevet tekst vanligvis er. I tillegg har vi ulike dialekter, og de to norske skriftspråkene bokmål og nynorsk har stor valgfrihet.

Trenet på opptak fra NRK

For å undersøke de ulike løsningene for transkribering, utarbeidet Språkbanken et testsett som inneholdt 10 timer variert lydmateriale med unike tema, stemmer og dialekter fra NRK sine radio- og tv-programmer. Lydopptakene ble brukt for å undersøke hvordan tale til tekst fungerer med spontan, ikke-normert talespråk der personer i opptakene snakker fritt og har et muntlig språk. Dette testsettet ble brukt for å undersøke hvor godt ulike løsninger på markedet fungerer for å gjøre tale på ulike dialekter om til nynorsk eller bokmål tekst. For å kunne teste hvor gode systemene er til å kjenne igjen tale under forskjellige opptaksforhold, hadde også testsettet variasjon i opptakskvalitet og bakgrunnsstøy.

Rom for forbedring

Det viste seg at tale til tekst er blitt bra, særlig innen transkribering av dialekter som ligger tett opp til nynorsk til nynorsk. Oslodialekt ligger lenger unna nynorsk og ble oftere feiltranskribert til nynorsk. Nynorsktranskripsjon fra nynorske dialekter var også bedre enn bokmålsnære dialekter til bokmål. I tillegg hadde modellene problemer med overlappende tale som betyr at flere snakker delvis over hverandre. Et annet problem som ble observert, var såkalt språkhallusinering, det vi si at norsk tale blir transkribert til et annet språk fordi systemet oppfatter feil.

En av løsningene som skilte seg positivt ut i testen, var løsningen Whisper som ikke bare transkriberer, men også forkorter og skriver meningsinnholdet. Et eksempel på direkte transkribert tale var: "Og han kompisen hans i Milano, han dreiv jo og var på Tinder-dater, og han dreiv jo på med forskjellig." Whisper transkriberte dette til: "Kompisen hans i Milano var på Tinder-dates og drev på med forskjellig."

Enklere å tekste video

I februar lanserte Nasjonalbiblioteket sin egen tale til tekst-modell på norsk kalt NB-Whisper. Denne er trenet på materiale fra Nasjonalbiblioteket og bygger på nettopp Whisper som er utviklet av selskapet Open AI som er et av verdens ledende selskap innen kunstig intelligens. Open AI leverer også tjenester som å produsere bilder og video av tekst samt tekstroboten Chat-GPT. Whisper har raskt vist seg å være god til å forenkle og å lære mer på mindre materiale.

Den nye norske språkmodellen utviklet av Nasjonalbiblioteket har vært testet av både Schibsted, politiet og Elevkanalen TV2 før den ble lansert i februar. Universitetet i Oslo er et av stedene hvor den nye språkmodellen allerede er tatt i bruk. Universitetet produserer enorme mengder videomateriale som har krav til teksting. Universitetet har utviklet et eget verktøy for teksting, kalt Autotekst som har fått Nasjonalbibliotekets språkmodell integrert. Forelesninger blir nå automatisk tekstet med denne modellen som også kan skille mellom ulike talere.

Autotekst med integrert norsk Whisper kan bestilles av alle ikke-kommersielle aktører i Norge.