Skip to content

Commit

Permalink
Update README.rst
Browse files Browse the repository at this point in the history
  • Loading branch information
andriygav authored Apr 15, 2024
1 parent fc22f73 commit ec3f5a5
Showing 1 changed file with 13 additions and 1 deletion.
14 changes: 13 additions & 1 deletion hometask/task2-2/README.rst
Original file line number Diff line number Diff line change
Expand Up @@ -5,7 +5,7 @@
Описание
========

В рамках данного задания требуется выполнить 5 задач. Каждая задача должна быть оформлена в виде отдельного task{1,2,3,4,5}.ipynb файла и tensorboard{1,2,3,4,5}.zip файла.
В рамках данного задания требуется выполнить 4 задачи. Каждая задача должна быть оформлена в виде отдельного task{1,2,3,4,5}.ipynb файла и tensorboard{1,2,3,4,5}.zip файла.
В каждом файле *.ipynb должно быть:
- построение архитектуры;
Expand Down Expand Up @@ -70,3 +70,15 @@ P.S. Выборку можно взять из sem-19. Времено не ра
P.S. Реализируйте метод Posterior Sampling из статьи.

P.S.S. Рекомендую посмотреть часть семинара sem-25 связаной с данной проблемой.

Задача 4. Детекция машинной генерации
----------------------------------------

Требуется построить базовый классификатор машинносгенерированных текстов. Современные методы генерации текстов позволяют генерировать тест, которые трудно отличимы от человеских текстов. В рамках данного задания предлагается реализовать простой метод детекции на базе моделей кодировщика трансформера. В качестве базовых статей предлагается использовать работы (реализовать любую из моделей классификации, указанных в данных работах):
1. G. M. Gritsay, A. V. Grabovoy, A. S. Kildyakov, and Yu V. Chekhovich. Artificially generated text fragments search in academic documents. Doklady Mathematics, 2024.
2. G. Gritsay, Andrey Grabovoy, A. Kildyakov, and Yury Chekhovich. Automated text identification: Multilingual transformer-based models approach. In Proceedings of the Iberian Languages Evaluation Forum (IberLEF 2023) co-located with the Conference of the Spanish Society for Natural Language Processing (SEPLN 2023), volume 3496 of CEUR Workshop Proceedings, CEUR-WS.org, 2023.
3. German Gritsay, Andrey Grabovoy, and Yury Chekhovich. Automatic detection of machine generated texts: Need more tokens. In Ivannikov Memorial Workshop Proceedings 2022, 2022.

Выборки для обучения и тестирования предлагается использовать с соревнования SemEval 2024 (https://github.com/mbzuai-nlp/SemEval2024-task8). В рамках конкурса рассматривались 3 типа задачи: бинарной классификации (machine vs human), мультиклассовой классификации (generative model classification), детекция машинносгенерированного фрагмента в тексте. Данные задачи идут в порядке увеличения сложности, предлагается решать именно как задачу бинарной классификации, но в целом можно решать любую из представленных 3х подзадач.

P.S. при проблемах с доступами к статьям, можно написать на почту за исходниками.

0 comments on commit ec3f5a5

Please sign in to comment.