You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
I tillegg er det klart at VG skal vise kvalifiseringskampene til det norske U21-landslaget for herrer.
Problemet er U21. I ein norsk tekst så er det rimeleg at talet blir lese på norsk, ikkje på samisk. Eg har lagt til eiga transkribering slik:
U21:U-tjueen # ;
(usikker på korleis vi skal handtera U-en enno, men inntil vidare er det slik).
Det går bra ganske langt, heilt til:
New surface form: U21-
Expanding because of ACR
Using lemma: U21
1. looking up normaliser
2.a Using normalised form: U-tjueen
2.b regenerating lookup: U-tjueen+v1+N+Prop+Cmp
3. Couldn't regenerate, reanalysing lemma: U-tjueen
U21- U21- # "U21" v1 N Prop Sem/Org ACR Cmp/SplitR Cmp "U21-"MIDTAPE <W:0.0> @>N #14->14
Transkriptor gjev U-tjueen som eg har lagt inn, men i og med at U-tjueen ikkje ligg i den leksikalske fst-en, går ikkje den forma igjennom, og programmet fell tilbake til originalen.
Kva er den beste algoritmen? Han må vera så generell som mogleg.
ta output frå transkriptoren uansett, sjølv om dei ikkje let seg generera? Då vil vi i det minste ha noko.
tror den fallback til transkriptor-versjon var en del av problematikk i issue #35. Om vi gjorde den så kommer det 3-4 vers ioner ut av den der 200 genitiv.
Ja, men då var det underliggjande problemet at vi ikkje kunne generera fordi taggstrengen var feil. No er det problemet løyst, så kanskje vi kan vurdera eit slikt alternativ i alle fall?
snomos
changed the title
U21-landslaget - korleis skal vi handtera ikkje-samiske akronym?
TTS: U21-landslaget - korleis skal vi handtera ikkje-samiske akronym?
Dec 8, 2023
Her er eit døme frå innlesingskorpuset vårt:
Problemet er
U21
. I ein norsk tekst så er det rimeleg at talet blir lese på norsk, ikkje på samisk. Eg har lagt til eiga transkribering slik:(usikker på korleis vi skal handtera
U
-en enno, men inntil vidare er det slik).Det går bra ganske langt, heilt til:
Transkriptor gjev
U-tjueen
som eg har lagt inn, men i og med atU-tjueen
ikkje ligg i den leksikalske fst-en, går ikkje den forma igjennom, og programmet fell tilbake til originalen.Kva er den beste algoritmen? Han må vera så generell som mogleg.
Synspunkt, @flammie @kathiasi @ilm024 ?
The text was updated successfully, but these errors were encountered: