Gå direkt till textinnehållet
Adde Granberg, teknikdirektör på SVT.

SVT om dålig AI-textning: ”I framtiden ska man kunna välja sina undertexter”

SVTs teknikdirektör Adde Granberg ser inte att man skulle kunna ta bort mänskliga undertextare under överskådlig tid, men tror att tittarna i framtiden kommer att kunna välja sina egna undertexter. ”Det finns fördelar med AI-transkriberade undertexter”, säger han.

En AI-transkribering av intervjun

Telefonintervjun med Adde Granberg genomfördes i måndags, bandades och transkriberades med hjälp av AI-verktyget Good Tape. Här följer intervjun i sin helhet, i illustrativt syfte.

Adde Granberg: Hej Johannes, Adi Gråberg, Jens Stenar.

Journalistens reporter: God dag, god dag. Hur står det till?

Annons Annons

Adde Granberg: Mycket bra. Det är måndag.

Journalistens reporter: Ja, just det. Det är mycket bra. Ja, det är alltid härligt. Vi skrev en artikel, vi publicerade en artikel i fredags om AI-textning och sådär. Med massor av exempel på hur dålig AI är på att texta och transkribera. Det såg ut som att det var ganska långt kvar till begriplighet i några fall. Hur har den med AI-textningen? Håller den på att utvecklas? Är den tillräckligt bra tycker du?

Adde Granberg: Nummer ett är att utvecklingen pågår hela tiden och den kommer aldrig stanna av. Det är en tumregel. Det är inte på eller av fråga. Vi har jobbat med AI-textning sedan 2020 och varit med i utvecklingen av den. Det pågår hela tiden så AI-textningen, precis som manuell textning, inne innehåller fel sen är det väl olika typer av fel och vi lär oss hela tiden. Sen är det väl nu fram till idag i september så har vi väl AI-textat kanske jag vet inte, närmare en halv miljon rader. Och väldigt mycket av dem är ju också rätt. Och vi håller på att vi pratar hela tiden med intresseorganisationerna om vad som är transkribering och vad som är bra och vad som är dåligt. Det gör vi löpande så vi utvärderar löpande. Det är som sagt inte en svart eller vit process.

Journalistens reporter: Jag hörde att ni har börjat med någon sorts hybridtextning. Det fattar jag inte riktigt vad det var för någonting. Vad är det?

Adde Granberg: Mångt och mycket så tror jag att våra huvudsändningar, jag tror inte att AI är där för att vi ska kunna trycka ut en huvudsändning utan att en människa är med i loopen. Så det kan man väl säga att det är ju en person som övervakar och blir felen så pass allvarliga så går man in och manuellt textar.

Journalistens reporter: Okej, så det är någonting nytt som ni har börjat med nyligen under hösten?

Adde Granberg: Ja, nytt och nytt. Vi har nog aldrig haft någon annan plan när vi började på huvudkanaler. För att det inte ska bli jättekraftiga fel så har vi nu en person, eller det har vi haft från början egentligen när vi började med våra huvudkanaler. Sen har vi ju direkttext att lokala nyheter är sen 2021 i stort sett. Med AI.

Journalistens reporter: Precis.

Adde Granberg: Jag kan ju inte se att inte vi har en människa med i lopen över överskådlig framtid på den här typen av publiceringar.

Journalistens reporter: De här felen som då publiceras som är åbegripeliga, som har dykt upp, det blir helt oavhörligt att förstå vad det handlar om. Det är oftast namnen eller organisationen som AI försöker tolka in till svenska ord. Kommer man runt det på något sätt? Lär sig AI en efterhand?

Adde Granberg: Ja, det lär sig ju hela tiden. Men sen tror jag att det som vi har lärt oss, och vi lär oss var AI är bättre eller sämre anpassade. Det har egentligen inte med program att göra. Det har med ljudbild att göra. När AI har svårt att höra så har troligtvis även jag som har en ganska okej hörsel också svårt att höra. Det vi håller på att undersöka nu är hur vi kan koppla ihop de här problemen med en hörbarhet generellt sett som är jättespännande. Som vi inte riktigt har kunnat koppla ihop tidigare. Så det är ju egentligen också att kunna jobba med ljudet framgent på ett bättre sätt så vi ökar hörbarheten för alla. Har AI en problem så har vi även någon annan problem. Sen lär sig ju AI att tolka och göra tolkningar framåt. Men jag tror fortfarande det är viktigt att man har en människa med i loopen för att kunna jobba med förbättrad hörbarhet. Sen tror jag att vi har diskuterat med intresseorganisationer om den här typen av fel. Så hänger ju de oftast med ändå. Det är inte så att ett namn eller ett ord blir fel så har de ju ändå greppat sammanhanget och förstår sammanhanget. Utan vinsten kan ju vara att du får en utförligare text eller att du får en text som kommer samtidigt som man pratar och så vidare. Så det finns ju pro och cons med både den manuella textningen och AI-textningen som vi håller på att utvärdera tillsammans med intresseorganisationerna.

Journalistens reporter: Vad är nackdelen med den manuella textningen?

Adde Granberg: Det är ju en transkribering eller det är ju egentligen en tolkning av vad människan sa. Man klarar ju inte, människan klarar ju inte av att översätta exakt det jag säger utan det är ju ytterligare en tolkning helt enkelt och det kan ju vara bra och det har ju både sina fördelar och nackdelar precis som en AI.

Journalistens reporter: Men AI, det går ganska snabbt när AI, texterna försvinner ganska tolkning för att det ska kunna ligga kvar lite längre i rutan. Det är väl bra att man gör en sådan tolkning snarare än att texten försvinner fort. Är det en sådan värdering som ni har gjort?

Adde Granberg: Jag tittar ju jättemycket själv de senaste åren så mina barn hemma undrar vad det är för fel på mig som tittar utan ljud med text på. Men det är för att jag själv ska försöka få en bild av det också. För jag tror att det är det bästa sättet att få till sig av det. Men jag tror att svaret på frågan är tudelat. För jag tror att det finns lika många som tycker att det är bra att man inte tolkar vad någon har sagt. Likaväl som att läsbarheten och tempot är en annan faktor i det. Så vi håller på att undersöka precis den frågan. Jag har ingen svar på den frågan. Vi har ju exempel där människor som har behov av textremsan upplever att det är första gången att de verkligen får reda på vad som sägs. Att det inte är en tolkning. Eftersom det är just en transkribering. Jag tror att the jury is still out där vad som är bra eller dåligt. Jag tror att tekniken nu har gjort det möjligt i alla fall att transkribera exakt vad som sägs. Huruvida det är bättre eller sämre resa, det kommer vi nog kunna utforska framåt, vilket tekniken möjliggör. Sen hoppas jag att det är framgent att man tekniskt, vilket vi inte är vid idag, kanske skulle kunna göra olika texter valbara på de digitala plattformarna, någonting som den analoga sändningen inte kunnat göra. Så jag hoppas ju att man kan öka tillgängligheten för flera med hjälp av tekniken.

Journalistens reporter: Så man kan både ha en väljande transkribering eller en tolkning?

Adde Granberg: Beroende på vad ditt eller någons behov är. Ditt specifikt utom tittans behov. Det är precis i sin linda. Även om vi har hållit på med det här i fyra år så upptäcker vi saker hela tiden och lär oss hela tiden. Det viktigaste för mig är att vi har en dialog med publiken som har behovet av tillgängliggörande.

Journalistens reporter: Men det är så mycket fel som AI fortfarande gör. När jag har hållit på sedan 2021, jag menar, det här är världssatsningen, det har pågått i så pass många år och det är fortfarande väldigt mycket fel som kommer med AI.

Adde Granberg: Det är andra typer av fel och det är absolut värt satsningen. Det är ju en teknik som är här för att stanna, det är jag helt övertygad om. Sen ska vi försöka göra det så att vi kan öka tillgängligheten för så många som möjligt. Det är väl en fin grej att kunna försöka jobba mot den ambitionen. Det är ju inte Sveriges Television som driver transkriberingstekniken utan det är ju stora företag utanför Sveriges Television som använder tekniken. Och vi tar ju bara in den in i våra system för att kunna tillgängliggöra förhoppningsvis ännu mer av vårt utbud.

Journalistens reporter: Jag ska återkomma till det här du nämnde, transkriberingar. Det finns de som tycker att det är en fördel med en transkribering jämfört med tolkning. Jag kommer ju att skriva citat från dig här och du gör ju det skriftspråkligt, inte talspråkligt. Eftersom annars blir det väldigt svårt att ta till sig vad det är du säger. Men ni har en lite annan syn på det då, SVT?

Adde Granberg: Nej, jag har inte en annan syn. Verkligen inte en annan syn. Jag låter publiken avgöra vad deras syn är. Om de vill ha det transkriberat eller inte. Sen kommer vi säkert A in framöver att kunna göra också om man skulle vilja en tolkning av det för att korta ner teckenlängderna på texten etc. Men det här har inte ens varit möjligt att visa publiken tidigare.

Journalistens reporter: Ja, ja. Sen frågade du någon som…

Adde Granberg: Jag är inte den som ska avgöra vad som är rätt eller fel i den här frågan utan det jobbar vi ju jättetätt med de som har behov av texten.

Journalistens reporter: Okej. Men är det inte så att ni har också fattat beslut om att ha kortare lignitid på de här texterna och att det ska vara mer talspråkligt i textningen? Är det inte något principbeslut som ni har fattat på SVT?

Adde Granberg: Det finns inga principbeslut utan vi tar till oss den tekniken och utvecklingen som sker utanför SVT för att förhoppningsvis kunna tillgängliggöra ännu mer utbud till publiken. Så vi i tät dialog med ansvarig utgivare, i tät dialog med publiken som har de här behoven så utforskar vi de nya möjligheterna som tekniken ger.

Journalistens reporter: Det är ett sparpaket…

Adde Granberg: Det är viktigt att säga att vi fortfarande är en människa i lopen. Vi släpper inte vind för vård. Det är otroligt viktigt.

Journalistens reporter: Inte på lokala myndigheterna dock utan där är det fortfarande. Där går det valligt.

Adde Granberg: Där skulle vi aldrig ha, då skulle vi få skära ner så extremt mycket som vi ska göra det. Så där vart det aldrig någon debatt. Det fanns ju ingen människa i lopen innan. Så det är ju ett exempel på hur man accepterar det på ett annat sätt än den debatten som för sig går nu. Vilket är också intressant. Varför det här blir en jättestor debatt och det andra inte var det.

Journalistens reporter: Men det är ju ett sparket som ligger på SVT och tanken är ju att minska undertexterna. Jag vet inte hur långt ni har kommit i det om det har varit mer skärningar där och folk har försvunnit.

Adde Granberg: Det pågår ett sparket över hela SVT. Det här är en del av det såklart. Men det är ju ingen del av SCT som inte har sparpaket i sig själv nu. Vi har en uppräkning på 2% och världen utanför ser annorlunda ut. Det känns ju inte helt onaturligt att alla får dra sitt strå till stacken för att inte behöva dra ner på utbud och göra Sveriges Television mindre populärt hos publiken.

Journalistens reporter: Men det var ju ganska mycket pengar av de personer som skulle försvinna från den avdelningen förstod jag det som när sparpaketet presenterades av Andra Stjärne förra året. Har ni kommit, är ni klara med den besparingen där eller hur ser det ut?

Adde Granberg: Det sparpaketet siktas ju mot 2025 eller årsskiftet 2026 och det är ju pågående. I den takten som det tillåter också, det är viktigt att säga. I dialoglösheten också.

Journalistens reporter: Men här är tanken att det ska minska den manuella textningen och ha mer AI-textning framöver när det här språkpaketet är klart?

Adde Granberg: Vi har ju redan minskat den manuella textningen och övergått till AI. Det är ju därför du skriver artikeln.

Journalistens reporter: Det skulle bli mindre människor som arbetar med undertextning.

Adde Granberg: Om det skulle också möjliggöra, vilket jag hoppas att vi kan tillgängliggöra mer så absolut. Sen tror jag att det inte har att göra när ljudet tillåter att vi kan AI-texta snarare än vilket program det är. Så det är ju det vi håller på att utforska.

Journalistens reporter: Det var jätteintressant hur du sa det här. Att ni håller på att titta på ljudet just. Vad är det för problem? Hur ska ni få en bättre ljudbild då? Är det någonting särskilt ni gör?

Adde Granberg: Nej, vi har ju uppmärksammat att när AI har problem så beror det oftast på att folk pratar i munnen på varandra eller att ljudbilden är otydlig eller det är bakgrundsljud och sånt. Och då finns det digitala hjälpmedel idag att jobba med det än bättre. Det här har ju varit väldigt intressant. Ett tydligt mått på när det är otydligt eller inte otydligt. För så fort någonting är otydligt, då reagerar jag direkt. Så det är ju ett hjälpmedel för oss att börja jobba än mer med den typen av frågor.

Journalistens reporter: Yes. Du, jättebra. Jag tror kanske det räcker så. Något mer jag borde fråga om?

Adde Granberg: Vad mer borde jag fråga om? Näää, det får nu du avgöra. Jag är mest på honom att vi blir så bra så o-relevanta som möjligt för publiken.

Journalistens reporter: Vi har fått väldigt många reaktioner på denna artikel vi publicerade i fredags med exempel på hur AI tolkar och fel-tolkar. som tycker att det här är ett jätteproblem för dem. Personer som är högst sakadade har en funktionsnedsättning som tycker att det här är besvärligt. Vad säger du dem? När kommer det att bli bättre?

Adde Granberg: Tekniken har inte stannat av utan alla jobbar för att få till tekniken på så bra sätt som möjligt. Vi jobbar för att få det bättre. Jag tror att alla bolag som är inlämnade utanför Sveriges Television i den här typen av tjänster jobbar med att tekniken ska bli bättre. Så det är en konstant utveckling som pågår.

Journalistens reporter: Okej, det är jättefint. Jag tar och mejlar dig för att du kollar citat och sånt där. Om du hinner med dig. Jag ska försöka få ut adäcken i eftermiddag. Men stort tack för att du tog dig tid.

Adde Granberg: Ja, tack så mycket.

Journalistens reporter: Tack, ha det bra. Hej.

Adde Granberg: Tack, ha det bra. Hej.

Fotnot: Vissa formuleringar i de kurerade citaten i artikeln har ändrats på ett sätt som inte återspeglas fullt ut i i transkriberingen, efter att Adde Granberg läst och kommit med synpunkter på artikeltexten.

Journalisten berättade i fredags hur dålig AI-undertextningen på Sveriges Television fortfarande är, tre år efter införandet, med över 60 exempel på AI-missar under tre dagar förra veckan.

Ett grundproblem för SVTs AI-genererade undertexter har varit kvaliteten i ljudbilden. Om det finns bakgrundsljud eller folk pratar i mun på varandra uppstår fler fel i AI-textningen, enligt Adde Granberg:

– När AI har svårt att höra så har troligtvis även jag som har en ganska okej hörsel också svårt att höra. Nu finns det digitala verktyg som kan öka hörbarheten när ljudkvaliteten är dålig, och det är något vi undersöker just nu. Ofta förstår man av sammanhanget vad som avses när det blir fel i en textning.

Adde Granberg trycker under intervjun på att utvecklingen pågår hela tiden, att AI lär sig hela tiden och att SVT också lär sig hela tiden.

– Vi samtalar och utvärderar hela tiden med publiken och intresseorganisationerna om vad som fungerar bra och vad som fungerar dåligt. Det finns ju för- och nackdelar med både den manuella textningen och AI-textningen, säger Adde Granberg.

Vad är nackdelen med den manuella textningen?

– Den är inte en transkribering utan en tolkning, eller en kurering, av vad en person säger. Vi har exempel på personer som har behov av textremsan som upplever att med AI-transkribering får de för första gången reda på vad som faktiskt sägs live, utan att det har tolkats manuellt. Huruvida det är bättre eller sämre med transkribering än med tolkning, det ska inte jag avgöra.

Du menar alltså att det finns personer som tycker att det är en fördel med transkriberade undertexter?

– Ja, det har vi exempel på.

När jag skriver citat från dig till den här artikeln gör jag om dem till skriftspråk i stället för talspråk, annars blir det väldigt svårt att ta till sig vad det är du säger. Men ni har en lite annan syn på det på SVT?

– Nej, jag har inte en annan syn. Jag vill låta publiken avgöra om de vill ha det transkriberat eller inte. Transkribering har inte ens varit möjlig att visa publiken tidigare.

En viktig skillnad mellan AI-transkribering och en manuell textning är den så kallade ”liggtiden”, hur länge undertexten ligger i bild. I en transkribering försvinner texten fort eftersom den är talspråklig och därför mer ordrik, medan en mänsklig undertextare redigerar och kortar citaten för att få längre liggtid så att tittaren ska få mer tid att läsa texten.

– Jag hoppas att man framgent ska kunna ha olika textningar valbara på de digitala plattformarna och på så sätt öka tillgängligheten för flera, säger Adde Granberg.

Så man ska kunna välja undertexter mellan en AI-genererad transkribering eller en AI-genererat tolkning med längre liggtid?

– Ja, beroende på ditt behov som tittare. Den här utvecklingen är i sin linda. Även om vi har hållit på med det här i fyra år så upptäcker vi saker hela tiden och lär oss hela tiden. Det viktigaste för mig är att vi har en dialog med publiken som har behovet av tillgängliggörande.

Sparpaketet på SVT kommer att slå hårt mot undertextarna. Är tanken att ni ska minska den manuella textningen och ha mer AI-textning framöver?

– Jag kan inte se att vi inte kommer att ha en människa med i loopen i en huvudsändning under överskådlig tid. Vi släpper inte detta vind för våg.

De lokala nyheterna AI-textas väl fortfarande utan mänsklig inblandning?

– Där fanns det ju ingen människa med i loopen innan, textningen har tillförts genom AI-transkribering. Det accepterar man på ett annat sätt än i den debatt som försiggår nu. Vilket också är intressant. Varför blir det en jättestor debatt om det här och inte om AI-textningen av de lokala nyheterna?

Kommentarer

Ett svar till ”SVT om dålig AI-textning: ”I framtiden ska man kunna välja sina undertexter””

  1. AI-textmaskinens svårigheter att ”höra” när det finns bakgrundsljud är ytterligare ett mycket starkt argument för att inte lägga på ljud som inte fanns med i det ursprungliga inspelade materialet i nyhetsinslag, där ”dramatisering” över huvud taget inte hör hemma. Som om inte den verklighet vi lever i vore dramatisk nog.

Lämna ett svar

Vi hanterar läsarkommentarer som insändare. Regler för kommentarer.

Fler avsnitt