open-korean-instructions

Open Korean Instructions는 언어모델을 학습하기 위한 공개 한국어 instruction dataset들을 모아둔 저장소입니다.
이 외에도 번역하거나 GPT를 이용해서 생성한 다양한 데이터들이 존재합니다. 혹시 새로운 데이터가 있다면 PR로 알려주세요.

공개된 데이터 정리

이름	#	타입	내용
KoAlpaca v1.0	52K	싱글턴	Alpaca instruction 번역 후 output을 ChatGPT로 생성
KoAlpaca v1.1	21K	싱글턴	지식인 질문 수집 후 ChatGPT로 대답 생성
ShareGPT DeepL 번역	620K(싱글턴) 84K(멀티턴)	멀티턴, 싱글턴	ShareGPT 데이터를 DeepL로 번역
ShareGPT-74k-ko	74k, 55k(코드제거)	멀티턴	ShareGPT 90k의 cleaned 버전을 구글 번역기를 이용하여 번역
KoChatGPT 실습	13K	싱글턴, 멀티턴, RM	한국어 질문 데이터셋에서 질문 수집 후 ChatGPT로 대답 생성
OIG-small-chip2-ko	210K	싱글턴	LAION AI의 OIG-smallchip-2 영어 데이터 Google Translate으로 번역
Korquad-Chat	9.6K	멀티턴, 지식기반	KorQuAD v1 데이터의 context(뉴스, 위키백과의 문단)을 주고, 관련 내용의 대화를 ChatGPT로 생성
AIRC-KETI/kowow	?	멀티턴, 지식기반	WoW(Wizard Of Wikipedia) - 지식기반 대화 데이터를 번역한 데이터
CounselGPT	싱글턴(13k) 멀티턴(8.7k)	멀티턴, 싱글턴	GPT로 생성한 상담 데이터
Evolve-instruct	37k	싱글턴	WizardLM에서 사용된 evol-instruct를 이용하여 instruction을 증강한 후 GP로 답변 생성한 데이터
KULLM v2	153k	싱글턴	GPT4ALL, Dolly, Vicuna(ShareGPT) 데이터를 DeepL로 번역
nlpai-lab/openassistant-guanaco-ko	9.85k	멀티턴	Korean translation of Guanaco via the DeepL API
psymon/namuwiki_alpaca_dataset	79K	싱글턴	나무위키 덤프 파일을 Stanford Alpaca 학습에 맞게 수정한 데이터셋
changpt/ko-lima-vicuna	1k	싱글턴, 멀티턴(극히 일부)	GPT4 API를 사용하여 lima_vicuna_format 데이터를 한국어로 재생성한 데이터셋
taeshahn/ko-lima	1k	싱글턴, 멀티턴(극히 일부)	LIMA: Less Is More for Alignment (Zhou et al., 2023)의 학습 데이터를 한국어로 번역한 데이터셋
Ko-StrategyQA	2.2k(질문), 9k (문서)	Multi-hop QA, 예/아니오 단답형	이 데이터셋은 StrategyQA의 한국어 버전입니다. 기존 데이터셋의 모든 질문과 단락들을 DeepL을 사용하여 번역.
HAERAE-HUB/KoInstruct-Base	52k	싱글턴	Alpaca 데이터 번역인 듯 함.
HAERAE-HUB/KoInstruct-QA	50.3k	싱글턴	원본 데이터가 뭔지 모르겠음. 위 데이터중에 중복이 있을 수도 있음.
kyujinpy/KOpen-platypus	24.9k	싱글턴	garage-bAInd/Open-Platypus 데이터 번역
ziozzang/EverythingLM-data-V2-Ko	1k	싱글턴	EverythingLM-data-V2를 DeepL로 번역
human-rights-corpus/HRC/	1.5k	싱글턴	대화형 생성 모델을 위한 인권코퍼스 구축 - 대한민국 국가인권위원회의 결정례와 상담사례 참조, 문체 변경과 질의 응답으로 변경하기 위해서 전후 맥락을 고려한 예시문을 만들고 GPT-3.5-turbo 을 이용하여 원샷 학습후 문답 생성
kyujinpy/OpenOrca-KO	21.6k	싱글턴	OpenOrca dataset 중 약 2만개를 sampling하여 번역한 데이터셋
kyujinpy/KoCoT_2000	2.16k	싱글턴	Using DeepL dataset, translation about kaist-CoT.
RLHF-Korean-Friendly-LLM	2.4K(SFT), 3.8K(RM), 3.6K(RLHF)	싱글턴	다양한 데이터를 수집하여 RLHF를 위한 천개 단위의 데이터셋 구축
jojo0217/korean_rlhf_dataset	107k	싱글턴	성균관대학교 산학협력프로젝트 과정에서 한국어 llm 모델 SFT 학습을 위해 구축한 데이터셋 입니다.
maywell/ko_hh-rlhf-20k_filtered	20k	멀티턴, RM	hh-rlhf 데이터셋 중 20k를 synatra-translation 모델로 번역
squarelike/OpenOrca-gugugo-ko	640k + (번역중)	싱글턴	Gugugo-koen-7B-V1.1을 이용하여 OpenOrca데이터셋을 번역 중
maywell/ko_Ultrafeedback_binarized	62k (RM)	싱글턴	Synatra-7B-Translation 모델을 통해 Ultrafeedback_binarized를 번역하고 정제한 데이터셋입니다.
MrBananaHuman/kor_ethical_question_answer	29.1k	싱글턴	RLHF 학습을 위한 AI 윤리적/비윤리적 질의-답변 데이터셋
HumanF-MarkrAI/WIKI_QA_Near_dedup	138k	싱글턴	maywell(Jeonghwan Park)께서 만드신 maywell/wikidata_QA 에서 deduplication한 QA 데이터
kaist-ai/Multilingual-CoT-Collection	77.2k	싱글턴	KAIST에서 공개한 다국어 CoT collection, 한국어 77.2k 포함
heegyu/PKU-SafeRLHF-ko	164k(RM)	싱글턴	PKU-Alignment/PKU-SafeRLHF 데이터 번역 중
heegyu/hh-rlhf-ko	113k(RM)	멀티턴	Anthropic/hh-rlhf 데이터 번역 중
heegyu/webgpt_comparisons_ko	19.6k(RM)	싱글턴	openai/webgpt_comparisons를 모델로 번역
heegyu/glaive-function-calling-v2-ko	15.2k (Function Calling)	멀티턴	glaiveai/glaive-function-calling-v2 중에서 15.2k 개를 ChatGPT로 번역
squarelike/ko_medical_chat	3.04k	멀티턴	jwj7140/ko-medical-chat MedText와 ChatDoctor 데이터셋을 GPT3.5를 통해 한국어 대화로 변환
MarkrAI/KoCommercial-Dataset	1.44M	싱글턴	상업적으로 이용 가능한 데이터셋들을 수집 및 가공하여 하나로 병합
maywell/koVast	685K	멀티턴	685K의 대규모 멀티턴 한국어 대화
SJ-Donald/orca-dpo-pairs-ko	36K	싱글턴	mncai/orca_dpo_pairs_ko, Ja-ck/Orca-DPO-Pairs-KO, We-Want-GPU/Yi-Ko-DPO-Orca-DPO-Pairs 3개의 DPO 데이터셋 병합 후 중복 제거
lcw99/wikipedia-korean-20240501-1million-qna	1M	싱글턴QA	한글 위키피디아를 백만개의 섹션으로 나누고 백만개의 q&a를 생성
nlp-with-deeplearning/Ko.WizardLM_evol_instruct_V2_196k	196k	싱글턴	자체 구축한 번역기로 WizardLM/WizardLM_evol_instruct_V2_196k을 번역한 데이터셋
HAERAE-HUB/qarv-instruct-100k	100k	싱글턴	한국에 대한 지식이 필요한 지시문-답변 쌍 (영어 포함)
kuotient/orca-math-word-problems-193k-korean	193k	싱글턴	microsoft/orca-math-word-problems-200k 번역
kuotient/orca-math-korean-preference	193k	싱글턴(DPO)	번역된 microsoft/orca-math-word-problems-200k를 이용해 만든 DPO 데이터셋
jojo0217/korean_safe_conversation	26k	싱글턴	성균관대 - VAIV COMPANY 산학협력을 위해 구축한 일상대화 데이터로, 자연스럽고 윤리적인 챗봇 구축을 위한 데이터셋
HAERAE-HUB/K2-Feedback	100k	싱글턴	K^2-피드백은 한국어 모델에서 세분화된 평가 능력을 향상시키기 위해 만들어진 데이셋, Feedback Collection을 기반으로 한국 문화와 언어학에 특화된 지시문을 통합합니다. (NOTE: 원래 Prometheus 모델 학습 용 데이터지만 5점 output만을 가져와서 학습에 활용할 수 있다)
maywell/kiqu_samples	24.9k	싱글턴	kiqu-70b 모델의 출력 샘플입니다.
CarrotAI/ko-instruction-dataset	7k	싱글턴	WizardLM-2-8x22B 모델을 사용하여 생성한 한국어로 이루어진 고품질 한국어 데이터셋, WizardLM: Empowering Large Language Models to Follow Complex Instructions에서 소개된 방법으로 생성
HAERAE-HUB/HR-Instruct-Math-v0.1	30k	싱글턴	한국어 수학 instruction 데이터 (PoC 버전)
iknow-lab/qarv-instruct-ko-mt	10K	멀티턴	HAERAE-HUB/qarv-instruct-ko 데이터 1만여개에 GPT-3.5-turbo를 이용해서 2턴 대화를 더 추가한 멀티턴 데이터
iknow-lab/ko-evol-writing-wiki	30K	싱글턴	GPT-3.5-turbo를 이용해서 생성한 글쓰기 / 창의적 글쓰기 데이터
AIHub RLHF dataset	SFT(13K), RM(33K), PPO(33K)	싱글턴	RM 데이터는 지시문과 5개 답변에 대해 순위가 매겨져있음. PPO 데이터의 경우 지시문만 있으며 답변 없음.

다른 컬렉션

컬렉션	설명
유준혁님의 번역 데이터	영어 데이터셋을 한글로 번역한 데이터셋입니다.
유준혁님의 번역 데이터 2(Magpie)	Magpie 데이터셋 한국어 번역본 (@nayohan님 번역 모델 사용)
songys/huggingface_KoreanDataset	송영숙님의 2024년 10월 10일 기준 huggingface에 있는 한국어 데이터 세트 정리
나요한님의 번역 데이터	Datasets translated from English to Korean using llama3-instrucTrans-enko-8b``

평가용 데이터셋

이름	#	타입	내용
HAERAE-HUB/KMMLU	243k	MCQA	45개 주제의 전문가 수준 한국어 성능 평가 벤치마크
HAETAE-project/HAE-RAE-BENCH	1.5k	MCQA	HAE-RAE Bench는 언어 모델의 한국어 능력(어휘, 역사, 상식, 독해)을 평가하기 위해 제작된 벤치마크 데이터셋입니다.
HAERAE-HUB/CSAT-QA	0.9k	MCQA	국어 수능문제
HAERAE-HUB/K2-Eval	90	생성	정확한 답변을 위해서는 한국어 문화에 대한 깊이 있는 지식이 필요한 90개의 사람이 작성한 지시문, 사람 혹은 GPT-4가 평가
sean0042/KorMedMCQA	< 1k	MCQA	한국어 의료 QA 벤치마크
HAERAE-HUB/Korean-Human-Judgements	< 1k	Human Preference	각각 질문, 답변 A, 답변 B와 사람의 선호 표시
HAERAE-HUB/KUDGE	2.8k	Human Preference	한국어 응답에 대한 메타평가 능력을 검사하기위한 5.6k한국어 human annotation

평가 플랫폼

Ko Chatbot Arena Leaderboard: 사람이 여러 챗봇의 결과를 비교해보고 그 승률과 ELO 점수를 보여주는 리더보드
instructkr/LogicKor-leaderboard: 한국어 언어모델 다분야 사고력 벤치마크
호랑이 LLM 리더보드: wandb에서 공개한 Q&A, 멀티턴 형식의 한국어 LLM 평가 리더보드
ko-RM-judge: 보상 모델(Reward Model)을 이용하여 챗봇의 대답을 평가하고, 그 점수를 비교
Korean-SAT-LLM-Leaderboard: 10년치 대한민국 수능시험 평가
KoMT-Bench: MT벤치 한국어

Name		Name	Last commit message	Last commit date
Latest commit History 56 Commits
script		script
src		src
translation		translation
.gitignore		.gitignore
README.md		README.md
check_data.ipynb		check_data.ipynb
download.sh		download.sh
merge.py		merge.py
parse.py		parse.py
push2hub.py		push2hub.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

open-korean-instructions

공개된 데이터 정리

다른 컬렉션

평가용 데이터셋

평가 플랫폼

한국어 합성 데이터 구축에 참고할 저장소

About

Releases

Packages

Languages

HeegyuKim/open-korean-instructions

Folders and files

Latest commit

History

Repository files navigation

open-korean-instructions

공개된 데이터 정리

다른 컬렉션

평가용 데이터셋

평가 플랫폼

한국어 합성 데이터 구축에 참고할 저장소

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages