Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Tal med komma _som tekst_ blir ikkje analysert #29

Open
snomos opened this issue Sep 7, 2023 · 6 comments
Open

Tal med komma _som tekst_ blir ikkje analysert #29

snomos opened this issue Sep 7, 2023 · 6 comments
Assignees
Labels
bug Something isn't working

Comments

@snomos
Copy link
Member

snomos commented Sep 7, 2023

Jf:

echo 50,5 | hfst-lookup -q src/transcriptions/transcriptor-numbers-digit2text.filtered.lookup.hfstol
50,5	vihttalåk tsiehkes vihtta	0.000000

mot:

echo 50,5 | hfst-lookup -q transcriptor-numbers-digit2text.filtered.lookup.hfstol | \
  cut -f2 | \
  cut -c1- | \
  grep -v '^$' | \
  hfst-lookup -q ../analyser-gt-norm.hfstol
vihttalåk tsiehkes vihtta	vihttalåk tsiehkes vihtta+?	inf

Problemet er at tsiehkes ikkje er definert i det heile i lang-smj/src/fst/stems/numerals.lexc, dvs det finst ikkje lexc-kode for å analysera anna ein heiltal. Jamfør denne:

LEXICON COMMA
ENDLEX ;
COMMASECTION ;
LEXICON COMMASECTION
,:% tsiehkes% Root ;
%.:% tjuogga% Root ; ! these will overlap with dates
%::% gærddotjuogga% Root ;
%-:% tjanássáhtso% Root ;
%=:% la% Root ;
%°:% gráda% Root ;
§:% paragráffa% Root ;
%*:% násste% Root ;
&:% ja% Root ;

der alle skiljeteikna som transkriptoren kjenner att kjem fram.

@snomos snomos added the bug Something isn't working label Sep 7, 2023
@ilm024
Copy link
Contributor

ilm024 commented Sep 3, 2024

Jeg forstår heller ikke helt hva som skal gjøres her.

@snomos
Copy link
Member Author

snomos commented Sep 3, 2024

Lexc-koden i den vanlege analysatoren manglar kode som gjer at han kan analysera komplekse tal (som t.d. tal med komma og desimalar) når talet er skrive som tekst. Fungerande kode finst i

LEXICON COMMA
ENDLEX ;
COMMASECTION ;
LEXICON COMMASECTION
,:% tsiehkes% Root ;
%.:% tjuogga% Root ; ! these will overlap with dates
%::% gærddotjuogga% Root ;
%-:% tjanássáhtso% Root ;
%=:% la% Root ;
%°:% gráda% Root ;
§:% paragráffa% Root ;
%*:% násste% Root ;
&:% ja% Root ;
, så du kan ta den koden som mønster.

@snomos snomos changed the title Tal som tekst med komma blir ikkje analyserte Tal med komma _som tekst_ blir ikkje analyserte Sep 3, 2024
@snomos snomos changed the title Tal med komma _som tekst_ blir ikkje analyserte Tal med komma _som tekst_ blir ikkje analysert Sep 3, 2024
@ilm024
Copy link
Contributor

ilm024 commented Sep 10, 2024

Skal vi virkelig legge det inn? Det er jo ingen som skriver kommatall med bokstaver.

@snomos
Copy link
Member Author

snomos commented Sep 10, 2024

Kanskje ikkje, men for å få TTS-tekstprosesseringa til å fungera må vi ha det inn her, inkl moglege kasusformer og annan potensiell morfologi

@ilm024
Copy link
Contributor

ilm024 commented Sep 10, 2024

Kan vi ta det sammen med flagg i numeralfila? Så når har du tid til et arbeidsmøte. Kanskje Maja også bør delta, for hun må jo også gjøre det samme (egentlig nordsamisk lingvist også, men vi har jo ingen.)

@snomos
Copy link
Member Author

snomos commented Sep 10, 2024

Kan vi ta det sammen med flagg i numeralfila? Så når har du tid til et arbeidsmøte. Kanskje Maja også bør delta, for hun må jo også gjøre det samme (egentlig nordsamisk lingvist også, men vi har jo ingen.)

Ja.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

2 participants