-
Notifications
You must be signed in to change notification settings - Fork 93
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Issues with different language models #133
Comments
Hi @Spaskich , Thank you for helping us improve NLPCube. The feedback is really detailed and useful. Training a 3.0 model for Ukrainian is going to be straight forward, so I'm going to start with that. For the other issues, I will have to run a lot of local tests, in order to see what is causing them. This is going to take some time. I will keep you updated. |
@dumitrescustefan - can you please help with this? |
@Spaskich - just a quick update. I didn't have time to look into the issue this week, but I will have some time starting tomorrow. |
Hi @Spaskich, Sorry for the late reply. I just finished uploading the Ukrainian model. I will issue an update for the package regarding the SpaceAfter=no bug, which we're still trying to fix. The other issues will require more works but hopefully we will be able to focus on them soon. |
Thanks for the update and all the work. |
Hi,
I tried running a new instance of the English cube as well, but it returned the same error. |
Hi @Spaskich , The issue with the older models is resolved now. We are also retraining the tokenizer for the new models, which should solve most of the problems. Thank you for your patience and for supporting this project. |
Hey, are there any updates on the new models? |
Hi @Spaskich . Unfortunately, we don't have any updates, because we are running a little short on man power. If don't know when we will be able to focus on this issue. However, we welcome any contribution to NLP-Cube and if you have the time and resources, maybe you could try training some of the models, until you get satisfactory results. We would be more than happy to help you package the models and assign your contribution for citing, in case people use these languages. |
Okay, thanks for the info. Will update the issue if I make any progress. |
Describe the bug
I've been using the 3.0 version of NLP-Cube for a wide array of languages and I've encountered some minor issues. I'll summarize them below.
Additional context
SpaceAfter=No
is missing and has been replaced by a_
. Can this functionality be restored?Czech:
Text: Hlavním cílem zemědělské reformy je odstranění bariér dovozu pro čerstvé agrární produkty a snížení spotřebitelských cen. Pětiletý plán zahrnuje postupné snižování dovozních cel a odstranění omezení na dovoz ovoce, zeleniny a vajec z Evropy. Postupně by tak mělo dojít ke snížení cen a ročním úsporám ve výši 2,7 miliardy šekelů (19 miliard Kč) pro izraelské domácnosti. Reforma rovněž slibuje zvýšení dostupnosti sezónních zemědělských produktů po většinu roku, uvedlo ministerstvo zemědělství.
Greek:
Text: Παράλληλα με τον ετήσιο προϋπολογισμό για το 2022, οι χώρες της ΕΕ θα εξακολουθήσουν να βασίζονται στη στήριξη από το μέσο ανάκαμψης NextGenerationEU και τον μηχανισμό ανάκαμψης και ανθεκτικότητας που βρίσκεται στο επίκεντρό του.
This syntax is different than the old model. Is this a sought-after effect?
Finnish:
Text: Kasvatuksen ja koulutuksen toimialalle jyvitetään koronaelpymiseen varatusta summasta 24 prosenttia ja kulttuurin ja vapaa-ajan toimialalle 11 prosenttia. Kulttuurin ja vapaa-ajan apulaispormestari Arhinmäki iloitsi siitä, että liikuntapaikkojen ja ulkoilualueiden rakentamiseen ja kehittämiseen saatiin budjetissa 7,5 miljoonaa euroa lisää. Yhteensä näihin investointeihin käytetään ensi vuonna 17,5 miljoonaa. ”Kyse on ihmisten lähipalveluista. Rahalla huolehditaan siitä, että palveluita tulee tasapuolisesti ympäri Helsinkiä”, Arhinmäki sanoi.
Hungarian:
Text: A koronavírus-járvány általános gazdasági visszaesést eredményezett az Európai Unióban 2020-ban. Az eurozónán kívüli országok gazdasági visszaesése (-4,3 százalék) átlagosan kisebb mértékű volt a tavalyi évben, mint az eurozóna tagországokban (-5,7 százalék) (1. ábra). Hasonló kép rajzolódik ki, ha a visszaesés mértékét a járvány előtt kialakított növekedési várakozásokhoz hasonlítjuk. A 2019 végén rendelkezésre álló várakozásokhoz képest az eurozónán kívüli országok gazdaságaira kevésbé volt negatív hatással a koronavírus-járvány 2020-ban (átlagosan -6,8 százalék), mint az eurozóna tagországok gazdaságaira (átlagosan -7,6 százalék).
Russian:
Text: Из изменений главного финансового документа региона следует выделить расходы на социальную политику в связи с ростом численности получателей мер поддержки. Более половины из выделенных 2,1 млрд. рублей пойдут на поддержку семей с детьми. Добавлены деньги на ежемесячные выплаты на детей в возрасте от трех до семи лет и в связи с рождением первого ребенка, на предоставление регионального материнского капитала, на социальную поддержку многодетных семей и другие расходы. Дополнительное финансирование мер социальной поддержки людей старшего поколения и отдельных категорий жителей края составит более 972 млн. рублей. Предусмотрен рост бюджетных ассигнований на региональную доплату к пенсии, субсидии гражданам на оплату жилого помещения и коммунальных услуг, ежемесячные выплаты ветеранам труда, компенсацию расходов по оплате услуг ЖКХ педагогическим работникам и другие статьи.
Slovak:
Text: Brusel 24. novembra (TASR) - Európska komisia (EK) zverejnila v stredu výzvy na predkladanie návrhov v rámci programu Erasmus+ na rok 2022. So zvýšeným rozpočtom na budúci rok, ktorý dosahuje takmer 3,9 miliardy eur, bude Erasmus+ naďalej poskytovať príležitosti na študijné pobyty v zahraničí, stáže, učňovskú prípravu, výmeny zamestnancov a projekty cezhraničnej spolupráce v rôznych oblastiach vzdelávania a odbornej prípravy, mládeže a športu.
Slovenian:
Text: Obveznosti za izplačila plač in prispevkov so se povečale za 11,5 odstotka na 1,21 milijarde evrov. To povišanje je posledica napredovanj in dogovora o plačah, višjega izplačanega regresa, sprostitve izplačil delovne uspešnosti ter dodatkov za delo v rizičnih razmerah. Za 13,2 odstotka so bili v primerjavi s prvimi devetimi meseci lani višji izdatki za blago in storitve, medtem ko je bilo za poplačilo obresti izplačanih 6,7 odstotka manj denarja kot lani v tem času. Nižji izdatki iz tega naslova so posledica operacij državne zakladnice z upravljanjem javnega dolga, pravijo na ministrstvu.
New model doesn't split the sentences.
Turkish:
Text: İstanbul İl Sağlık Müdürlüğü binası önünde yapılan açıklamada şöyle denildi: “Sağlık Bakanlığı’nın 2022 yılı bütçe teklifine baktığımızda şunları görmekteyiz: Metalaşmış, ticarileşmiş tedavi edici hizmetler en büyük paya sahiptir. Ödeneklerin ne kadarının tedavi edici hizmetlere, ne kadarınınsa koruyucu hizmetlere ayrıldığı önemlidir. Bu rakamın 74,5 milyar liralık kısmı (yüzde 64) tedavi edici hizmetlere, buna karşılık 38,7 milyar lirası (yüzde 33) koruyucu hizmetlere ayrılmıştır. Yani sağlıkta ticarileşme ve metalaşmayı savunan anlayış yeni bütçede kaynakların aktarımı kısmında sınıfsallığını göstermektedir. Üstelik koruyucu hizmetlere ayrılan bütçeden pandemi döneminde verdikleri insanüstü çalışma koşullarına ve yüzlercesi hayatını kaybetmesine rağmen sağlık emekçilerinin ücretlerine ayrılan pay 5’te birdir. Pandemi sürecinde de daha net ortaya çıkan tablo koruyucu sağlık hizmetlerine ayrılan payın artırılması gerektiğini ortaya koyarken yine yeterli önem verilmediği ortadadır."
The text was updated successfully, but these errors were encountered: