Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Add a new eval : chinese_literary_grace #1375

Open
wants to merge 1 commit into
base: main
Choose a base branch
from

Conversation

Conghui-Niu
Copy link

@Conghui-Niu Conghui-Niu commented Oct 7, 2023

Thank you for contributing an eval! ♥️

🚨 Please make sure your PR follows these guidelines, failure to follow the guidelines below will result in the PR being closed automatically. Note that even if the criteria are met, that does not guarantee the PR will be merged nor GPT-4 access be granted. 🚨

PLEASE READ THIS:

In order for a PR to be merged, it must fail on GPT-4. We are aware that right now, users do not have access, so you will not be able to tell if the eval fails or not. Please run your eval with GPT-3.5-Turbo, but keep in mind as we run the eval, if GPT-4 gets higher than 90% on the eval, we will likely reject it since GPT-4 is already capable of completing the task.

We plan to roll out a way for users submitting evals to see the eval performance on GPT-4 soon. Stay tuned! Until then, you will not be able to see the eval performance on GPT-4. Starting April 10, the minimum eval count is 15 samples, we hope this makes it easier to create and contribute evals.

Also, please note that we're using Git LFS for storing the JSON files, so please make sure that you move the JSON file to Git LFS before submitting a PR. Details on how to use Git LFS are available here.

Eval details 📑

Eval name

chinese_literary_grace

Eval description

making a comprehensive assessment of the literary grace level according to the text

What makes this a useful eval?

Literary grace reveals the aesthetic function of language and matters of the use by a writer of the language. Texts with better literary grace can bring readers a higher aesthetic experience. Furthermore, the model's ability to assess the literary level of text is of significant importance in various domains, including educational applications, plagiarism detection, and text generation (such as generating advertisements, creative copy, or literary works). This evaluation contains 100 multiple-choice questions to evaluate the model's ability to distinguish the literary grace of the text. The goal is to select the option with the highest level of literary grace among the options. Each multiple-choice question includes four options with different literary talent levels that comprehensively consider phonetics, form, and semantics, including beauties of sound, modification, color, emotion, image, and philosophy. Models still struggle with this task. That is also why this evaluation is proposed.

Criteria for a good eval ✅

Below are some of the criteria we look for in a good eval. In general, we are seeking cases where the model does not do a good job despite being capable of generating a good response (note that there are some things large language models cannot do, so those would not make good evals).

Your eval should be:

  • Thematically consistent: The eval should be thematically consistent. We'd like to see a number of prompts all demonstrating some particular failure mode. For example, we can create an eval on cases where the model fails to reason about the physical world.
  • Contains failures where a human can do the task, but either GPT-4 or GPT-3.5-Turbo could not.
  • Includes good signal around what is the right behavior. This means either a correct answer for Basic evals or the Fact Model-graded eval, or an exhaustive rubric for evaluating answers for the Criteria Model-graded eval.
  • Include at least 15 high-quality examples.

If there is anything else that makes your eval worth including, please document it below.

Unique eval value

Insert what makes your eval high quality that was not mentioned above. (Not required)

Eval structure 🏗️

Your eval should

  • Check that your data is in evals/registry/data/{name}
  • Check that your YAML is registered at evals/registry/evals/{name}.yaml
  • Ensure you have the right to use the data you submit via this eval

(For now, we will only be approving evals that use one of the existing eval classes. You may still write custom eval classes for your own cases, and we may consider merging them in the future.)

Final checklist 👀

Submission agreement

By contributing to Evals, you are agreeing to make your evaluation logic and data under the same MIT license as this repository. You must have adequate rights to upload any data used in an Eval. OpenAI reserves the right to use this data in future service improvements to our product. Contributions to OpenAI Evals will be subject to our usual Usage Policies (https://platform.openai.com/docs/usage-policies).

  • I agree that my submission will be made available under an MIT license and complies with OpenAI's usage policies.

Email address validation

If your submission is accepted, we will be granting GPT-4 access to a limited number of contributors. Access will be given to the email address associated with the commits on the merged pull request.

  • I acknowledge that GPT-4 access will only be granted, if applicable, to the email address used for my merged pull request.

Limited availability acknowledgment

We know that you might be excited to contribute to OpenAI's mission, help improve our models, and gain access to GPT-4. However, due to the requirements mentioned above and the high volume of submissions, we will not be able to accept all submissions and thus not grant everyone who opens a PR GPT-4 access. We know this is disappointing, but we hope to set the right expectation before you open this PR.

  • I understand that opening a PR, even if it meets the requirements above, does not guarantee the PR will be merged nor GPT-4 access be granted.

Submit eval

  • I have filled out all required fields of this form
  • I have used Git LFS for the Eval JSON data
  • (Ignore if not submitting code) I have run pip install pre-commit; pre-commit install and have verified that mypy, black, isort, autoflake and ruff are running when I commit and push

Failure to fill out all required fields will result in the PR being closed.

Eval JSON data

Since we are using Git LFS, we are asking eval submitters to add in as many Eval Samples (at least 5) from their contribution here:

View evals in JSON

Eval

{"input": [{"role": "user", "content": "从下列四个选项中选出最具文采的一个,你只需要回答文本选项前的编号,例如:A\n\nA:在渤海新区成为一颗耀眼的新星,让敬业的名字飘进了千家万户。他一生的选择就是认识到了他挚爱的敬业,他一生的热情就是投入到他勤奋的钻研中,他一生的成绩都是敬业发展史上的上的一段佳话,我们怀念敬业的模范干部李厂长。正如臧克家在纪念鲁迅先生逝世十三周年时所说过:“有些人活着,他已经死了,有些人死了,他还活着”李厂长虽然已逝,但是他会一直活在我们每一个敬业人的心中。\nB:瘦子顺着树干滑下来,满脸失望。他将口袋里的杏子扔在地上。他盯着青杏,灵机一动说这些杏子可以当乒乓球玩。大家都夸他聪明,于是我们捡起那些青杏到学校的操场上玩耍。次日上午老姚气势汹汹地到学校告发了我们。老师听后火冒三丈。他脸色铁青地站在讲台上问谁偷了老姚家的杏。我们都不敢承认,战战兢兢地坐在课桌前。我低着头,听着自己砰砰的心跳。我真想做一只鸵鸟,把头埋在沙子里,逃过一劫。老师质问的声音似乎穿云裂石,撞击我们的心坎。C:我想您父亲的改变,似乎就在这里。那个几十年前的,和这里以前老板的那些谈话”“我很小的时候,见到过他老人家,就是现在这里的老板的爷爷。那时候他站在这条街上头上戴着高帽子,低着头,胸前挂着卖国贼的牌子。当时小孩子的我,走过去好奇的看时,他冲着我笑着吐出舌头。一直以来我都觉得他老人家是个心态好的人,今天听到您父亲写给他的信,使我明白,心态好是因为有智慧。他!是个智者。您的父亲之所以对他老人家有如此深厚的友谊,以至于不管人在哪里不管时光过了多久都要了却心愿。我想,一定是当时他们之间有很多有意思的谈话,那些谈话对他影响很深。宫本先生,请记住,在中国,有很多那样的老人家。\nD:时光悄悄地流逝,世间万物似乎都在悄悄改变,让人分不清哪是戏曲,哪是人生。我长大后到城市里工作了。在纸质日历上我总会将故乡庙会的日子贴上红色标签,以防把这个特殊的日子疏忽过去。总有一个日子像小屋似的储满我们的记忆或秘密,钥匙在我们手中,那扇门只有我们自己能够打得开,能够拎得起。庙会那天我总会给家人打电话,问一问姥姥是不是又来赶庙会看戏了。有一次母亲说姥姥来了,但是身体大不如从前好,姥姥坐在戏台前一杯茶的功夫就体力不支了。"}], "ideal": ["D", "d"]}
{"input": [{"role": "user", "content": "从下列四个选项中选出最具文采的一个,你只需要回答文本选项前的编号,例如:A\n\nA:生活本就是一次次的遇见和一次次的告别,在成长的过程中遇到的人,碰到的事,走过的路,看过的景,都是一次次完美的邂逅,也是一次次人生的成长与蜕变,每一次相逢都是缘。人生中有太多美好的遇见和邂逅,无论是明媚的阳光,灿烂的星空,皎洁的月光,或者是山川河流,还是满树的桃花,绿幽幽的青草,清新的空气,亦或是擦肩而过的人,相惜相知的朋友,曾心动过的人,世界上唯一无私爱着你的父母,还有从小一起玩到大的兄弟姐妹,都是生命中的缘,也是人生的分,所有的相遇才够成了完美的人生。\nB:我惶恐地望着她说:“妈妈,弟弟怎么了?”她哭着告诉我说弟弟已经走了——永远地走了!我望着弟弟,只见他在母亲的怀抱里四肢瘫软,脸庞乌青,紧闭双眼。我伸手摸了摸他的小手感到一阵冰凉。弟弟被死神带走了!在暗淡的夕阳下,母亲抱着弟弟的尸体慢慢地走回家,我们哭得昏天黑地,整个世界仿佛被眼泪淹没。后来我才知道,弟弟被送进医院不久便医治无效死亡了。医生推测弟弟接触到了农药,是中毒而死。医生想留下弟弟的尸体进行解剖实验,母亲拒绝了,她要带弟弟回家。C:我和父亲很多年都没有像今年寒假这样,在一起住这么久。每年都是过年匆匆而聚,年后他就奔赴外地打工,我留在家乡住校上课。我们之间的感情淡的像一碗白开水,撒娇,拥抱等童年记忆更是少之又少。然而这次突发的疫情,却让我们有了一次这么长时间的相处,我们的关系也开始逐渐变得缓和。2月中旬,我开始早起,家里没有课桌,每天早上我就支起小桌子坐在床上学习。每天在卧室听到他8点起床,拉开厚重的窗帘,窸窸窣窣穿衣服,烧水,在客厅里走动,晨光照进室内,我内心安宁。家里常年没有人,现在有人了,家也有了生气。\nD:三爷爷临终前留下两个遗憾,一个儿子临死差几步没能走进家门;一个儿子在烈士陵园里找不到名字和坟茔。我想,老人整天闷闷不乐的原因就在这里,他之所以经常“扎棒棒”,扎着“房屋”“马”“车”之类的,儿时的我不明白是怎么回事,后来渐渐懂得,如今更清楚,我想,他那时是为两个儿子扎的,把对儿子的思念都凝聚在给儿子的“房屋”“高头大马”和“车”上,寄托着对两个儿子深深的哀思。高粱,在我们老家还有个名字叫:胡秫。"}], "ideal": ["A", "a"]}
{"input": [{"role": "user", "content": "从下列四个选项中选出最具文采的一个,你只需要回答文本选项前的编号,例如:A\n\nA:我们许久没有联系过了!都各自经营者自己的家!我们许久没联系过了,你忙你的,我忙我的!这种生活就是一生的厮守!曾经的无话不谈到现在的形同陌路,我心都死了灰都随风飘落到各个地方了!只有这一点我的空间没人知道!我说过的话却还在,而你却不在我身边了!我们来到这个世界上是为了什么?为了所谓的幸福?什么是幸福?我想只有少数人觉得自己幸福,也许这少数人包括你!你找了一个你喜欢他他也喜欢你的人!曾经我真心的想祝你幸福,但每当我看到你的车的时候都会不自觉的跟在你身后却看不到你的人!\nB:这么做,家里人大概不会同意吧。可是他顾不了那么多,现在正是三月,是扬州城最美的时候。最重要的,现在她在他的小船上,在他的身旁。“牡丹倾国汝倾城,一颦一笑遮星辰。群芳争艳空陪衬,唇齿微翘四季春。兰姑,不,阿兰,不知道我新作的小诗,你可喜欢?”鼓起勇气表露心迹的他,心脏剧烈地跳动着好似要蹦出体内,这是他从未有过的感觉,让他感到每一分每一秒的沉默都是莫大的煎熬。“梦中人,意中人。白日怀思夜刻痕。念君至梦深。醉亦真,醒亦真。景愿而今似遇春。C:他在心里打定了主意,就这样磕头磕下去,他要把孔孟的经书磕破,他要把中国历史上几百个封建帝王统统磕醒,他要把地球沿着赤道磕出一个洞来。当他有了其它念头时,其实他已经活过来了,他有了“生”的觉悟,自然不再惧怕死了。可是,他肮脏的灵魂谁来原谅呢?他应该舍弃自己的灵魂,然后依靠着一具还算健硕的躯体,跟在人群后,模仿学习他们的为人处世之道,方能苟活于世。当然,我还是觉他的这种活着只是一种形式上的活着,如果他要死,谁也拦不住?但是我在怀疑,他曾经活过吗?他没有活过,又何来死呢?\nD:在风雨兼程的人生路上,每一个人都在努力地叩击幸福之门,寻找着那份属于自己的幸福。但是有些人一辈子都在追求幸福,到头来却好像感觉没找到幸福;有些人无法认识自己拥有的幸福,往往幸福就在身边却把握不好,没让自己得到这种幸福;有些人总是喜欢仰望和羡慕着别人幸福,一回头,却发现自己正被别人仰望和羡慕着。幸福是什么?不同的人对于幸福有不同的定义,每个人对幸福的感觉也是不一样的。"}], "ideal": ["B", "b"]}
{"input": [{"role": "user", "content": "从下列四个选项中选出最具文采的一个,你只需要回答文本选项前的编号,例如:A\n\nA:随手拿起一杯水,一口灌了下去,宫本喝了一大口米色女给倒的凉茶水,用生硬的汉语说:“我父亲生前确实喜欢吃辣的,可是我不喜欢,麻烦能在来一碗吗?”老板:“这是按您父亲爱吃的口味做的,当初做的时候你告诉我们不吃辣的,我们也好不加辣椒啊!我媳妇炒辣椒油的手艺一直不赖,这些年越来越懒,我都好几年没吃到了,这次你来,她亲自下厨。我都沾您的光晚上能回家尝尝辣椒油呢,你总不能说一口不吃吧。”宫本对老板娘:“对不起,实在对不起,我实在吃不了辣的东西。”老板娘委屈的对老板说:“我好不容易炒的辣椒,人家都不尝尝。”\nB:感谢大自然的美意,翠绿的湖水,像心灵的洗涤剂,把所有的疲倦、烦恼和不愉快,伴随这湍急的河水流走得无影无踪,而快乐的心情,就如这湖水一样清澈透亮,丰盈漫涨。到达漂流终点码头,每个包裹已在等候主人来取,“湿了身”的我们,身体的曲线尽显。可能是舍不得擦去天然的甘露,也可能是想留着快乐,藏在心里回味,在更衣处,每位游客都是脱下外面的湿衣,直接换上干衣。回宾馆,我们仰着笑酸了腮帮的脸;背着大包、拎着小包;带着愉悦的心情,踏上返回的旅程。C:孩子偎依在妈妈温暖怀抱里的那种温馨是一种幸福;抚摸着儿女细嫩皮肤的慈爱是一种幸福;注视着父母那沧桑面庞的敬意也是一种幸福;幸福还有可能来自一顿晚餐,一件棉衣,一个夸奖,一句真话,一个眼神,一个笑脸,还有彼此间的融洽,以及一生的陪伴,……。四处茫然地寻找幸福,把幸福看成是遥不可及的奢望,却不知幸福就在自己生活不经意间的件件事情中。原来生活中竟有如此多的幸福,幸福竟是这样的简单。有人问,你幸福吗?回答:很幸福。\nD:这古色古香的格局,让我有一种时间和空间的穿越感。那远去的时代,如一卷典雅、清幽的水墨画,缓缓地在我面前舒展开来,融入其中,就有一种莫名的感动和崇尚。虽然我这个匆匆过客,只在此停留几天,不会像孙中山、鲁迅、沈从文等名人那样,给后人留下什么值得纪念的东西,但能枕着他们的气息入眠,也是一种荣幸。虽然时间跨度有些久远,但只要用心去体悟,这种心灵的感应就无处不在。我就是在这美好的感应中,慢慢入梦的。梦,自然香、甜!"}], "ideal": ["D", "d"]}
{"input": [{"role": "user", "content": "从下列四个选项中选出最具文采的一个,你只需要回答文本选项前的编号,例如:A\n\nA:而朝我们看来,大幕拉开后,是结婚生子,柴米油盐。你就是皇宫里的王妃,也摆脱不了这样的羁绊。时间的发条,日复一日地滴滴答答地卷裹着我们,只是不留意罢了。我和女儿在一起时,快乐而混沌,聪明而犯傻,以为厮守的日子会天长地久,从不预想分离该是一种怎样的痛!她不再像从前一样依赖我,大学的丰富,从此进入她的生活,点亮她的生命。其实,我站在边线之外,这个女孩世界的热闹已无须我参与。这种历史意义的交接,让我阵阵心痛。\nB:时间在悄无声息的流走。朱自清爷爷说过“燕子去了有再来的时候,桃花谢了有再开的时候,杨柳枯了有再青的时候……”但时间去了永远也回不来了。每一秒都在飞速流走,走在青草上,飞在空气中……时间一去不复返,看着真有一些心痛。想起吃饭时候,时间从我的饭碗中过去溜走;洗脸的时候,时间从流水中飞去;休息睡觉时候,它便大步大步的从你身上跨过,从你脚边飞去。时间是消无声息的,人世间没有人不走过风风雨雨,大大小小的困难的事。但在途中要和困难作斗争和时间赛跑。C:都怪灯火那咬了一口的火烧,本来最后在吃串羊肉的,结果……超负荷的肚子啊!别怪我不负责,都怪我不忍心糟蹋粮食啊!其实吃的撑撑的不只我一个,灯火走路也腰挺挺的了,老马嘴边也油光光的呢,老郝脑门全是密密的光。老赵?哈哈!走路都外八字了!老大呢?哦!在不远的前方,一手拿着三双旱冰鞋,一手抱着丫头,看来也是和我一样,通过运动来消食呢!吃饱了!\nD:如果想爱情永远如诗般芬芳美丽,唯一的继续方式就是保持距离。刻骨相思谁与诉,离人渐别恨渐深。似乎,遇见你是我今生最忧伤的回忆。有时候我也会忘记你走了有多少年,只是隐约记得,你留我独自度过的那个冬天,我看见了人生中的第一场雪,然后没有你的十年,记忆里只有无边的冰冷。"}], "ideal": ["D", "d"]}
{"input": [{"role": "user", "content": "从下列四个选项中选出最具文采的一个,你只需要回答文本选项前的编号,例如:A\n\nA:叶子随着风,随意挥洒,表面跌跌撞撞,实际随着一种玄奥的轨迹在缤纷,似一层层涟漪,纷纷洒洒,无半点烟火气息,只写意,不乱型,不凌纷!耳畔秋风在呢喃,秋天,也是一场华丽的演奏么?秋高气爽,是树叶飞高,是心情舒爽,就这么简洁,没有一丝多余,好似听到一曲无声的演奏。红叶起起落落,叶柄悠悠忽忽,似那跳动的音符,耳畔似有高山流水,似有渔舟唱晚!\nB:经历了日子的折磨,还有岁月的坎坷,狼变得伤痕累累,也会有着疲惫,却更加坚持着自己的信念,会不断泡上峰峦,不断越过河流,不断地带着淡淡的忧愁,在走。即使是食物就在狼的身旁,狼也会不断彷徨,不断跑动,迎着彩虹。这是狼,永远都是带着野性的狼;即使冬天没有食物的时候,雪花在不断漂流,狼还是会出击,会想要获得自己生存的能力,想要征服自然,征服着未来。C:当那个人离去的那天,我们以为自己的心从此会为了那个人冰封,然后随岁月孤独地死去。我们总以为自己爱得那么真,爱得那么深,失去了他等同于失去了生命中的所有美好,自己再也不会也不敢那么认真地去爱一个人了。直到后来,漫漫岁月将我们的伤口缝合治愈,曾经遍体鳞伤的疤痕成为了我们生命中最强有力的臂膀,或许那时的我们已经逐渐模糊了那个人的名字和样子,而后,在某个阳光明媚的清晨里,我们遇见了另一个让自己生命发光发亮的温暖人儿。\nD:鲁迅所揭示的,是国人说谎的实际:对谎言大家都心知肚明,但大家都照样撒谎而不误,也乐于听谎而不疲。明明都在说谎,国人还要在说谎中把握真相,这个水平可是国人最值得吹嘘的骄傲。在这一方面,中国的儒学先贤积累的经验是“听话听音”,而且是听话外音,有个比喻叫做“弦外之音”。音是从弦上发出的,只能听到弦上的声音那是低水平的瓜怂,能听到不是弦上发出的声音才是聪明人。当然,能听到弦外音的前提是弹弦的人能弹出弦外音,这就是高水平。把这说白了吧,就是说者把真相用谎言说出,听者要在谎言中听出真话,这就是国人说话听话的真谛。"}], "ideal": ["A", "a"]}
{"input": [{"role": "user", "content": "从下列四个选项中选出最具文采的一个,你只需要回答文本选项前的编号,例如:A\n\nA:我想到了一首歌词:但愿你的眼睛,只看得到笑容。但愿你流下每一滴泪,都让人感动。但愿你以后每一个梦,不会一场空。这首歌词就是这部影片最好的诠释,他们有过眼泪,有过悲伤,但是他们靠着自己的毅力让生活越来越好。每个人的生活的圆都是有些残缺不全的,有的人对待残缺是忽略不计,有的人对待残缺是念念不忘,有的人对待残缺是无限放大。\nB:无论是春天的黄昏里,挽着母亲的手臂看天边的落霞,无论是在繁华的城市街道首饰店柜台前,拉着母亲的手看琳琅满目的首饰,无论是给母亲洗澡后,母子俩相依对镜感叹岁月的无情,这些都是美好的回忆,永远不会忘记,每每想起,心里总是满满的温暖,不知为何,我眼角却有泪珠留下。在母亲最后的光阴里,无论是在家里还是在住院期间,我如母亲在我小时候照顾我一般照顾她,可她口里心里眼里还是她那唯一的宝贝儿子我的弟弟,她望眼欲穿,心心念念期盼儿子能回家看她最后一眼,终是没有等到他,走时只见母亲眼角有两颗小小的清泪。C:你轻轻地抱着我,我恨不能永远躺在你的怀里,甚至幻想着某天在我生命的尽头,我也能偎依在你的怀里闭上尘世里最后一眼。我的世界里,希冀都是你的影子,思念你时,你会悄悄地站立在我面前。我喜欢你常常摸着我的头,轻轻地唤一声:“小坏坏!”那是我的骄傲,在你的脑海里,我是既温柔又可爱,有时还带着那么一丝丝的坏。你的影子无处不在,对你的思念越来越紧,似乎成为我生命中不可割舍的一部分。这份爱,在我的一声声叹息中,深藏内心。\nD:星期五早上7:40分,我急于赶火车要去西安,参加陕西省青年散文委员会,母亲却和父亲却逼迫我骑车送他们回老家,说是县社保局要对农村60岁以上的老人体检,他们76岁行走真不方便,何况老家离县城少说也也5里路,我骑车几分钟就到了,没有办法,父母亲体检身体重要,自己只好先送他们回老家吧!倒霉的连阴雨刚刚下过,太阳红彤彤的,但是,骑上摩托车穿行在乡村道路上依然还是觉得很冷。出了县城,空气顿时清晰了许多。"}], "ideal": ["B", "b"]}
{"input": [{"role": "user", "content": "从下列四个选项中选出最具文采的一个,你只需要回答文本选项前的编号,例如:A\n\nA:我站在人生的十字路口,望着川流不息的世界,我左右为难,甚至感觉迷茫。看着身边的人们,一个个都在为生活忙碌着,只是不知他们是否也感觉到了生活中的无奈。人生不是一盘棋,不是错一步可以反悔重来,在进退之间,取舍都是同样的难。婚姻是一座城,站在城外的想进来,站在城里的想出去看看外面的风景,其实城里城外的风景都别有一番风味,关键是看你以什么样的心情去欣赏罢了。人难做,做人难。\nB:黄昏时分,尾生提前来到桥上等候。不料,狂风突起,暴雨如注。山洪很快淹没了桥面,没过了尾生的膝盖。这时,四顾茫茫一片洪水,不见姑娘踪影。想起与心上人的约定,尾生寸步不离,死死抱着桥柱,终于被活活淹死。其实,姑娘因为私奔之事败露,被父母禁锢家中,不得脱身。后来,她伺机逃出,冒雨来到城外桥边。这时,洪水已去。姑娘看到抱柱而死的尾生,悲恸欲绝。她抱着尾生嚎啕大哭。C:我对于我的工作我的事业,是不可或缺的主宰。我的独出心裁的创意,像鸽群一般在天空翱翔,只有我才捉得住它们的羽毛。我的设想像珍珠一般散落在海滩上,等待着我把它用金线串起。我的意志向前延伸,直到地平线消失的远方……没有人能替代我,就像我不能替代别人。我很重要。我对自己小声说。我还不习惯嘹亮地宣布这一主张,我们在不重要中生活得太久了。我很重要。我重复了一遍。声音放大了一点。我听到自己的心脏在这种呼唤中猛烈地跳动。我很重要。我终于大声地对世界这样宣布。片刻之后,我听到山岳和江海传来回声。\nD:“你就尝尝,我那会不是说了,你吃了你父亲爱吃的罩饼,我就答应你将刚撕的照片复原。再说了,看你刚才火气大,我估摸着脾气大的男人吃辣的没问题,怎么?吓唬人在行,吃点辣椒就软了?”米色女腾的站起来:“你!你们这是欺负人!”红头发绿头发腾的也站起来,走到宫本旁边的桌:“服务员!来两瓶蓝星!一盘牛杂碎!杂碎就酒吃着香!”说着红头发从兜里掏出一个钥匙串上的小匕首穿花蝴蝶般的在手指转动着,绿头发眼睛瞅着宫本附和着:“对!杂碎就酒!吃着香看着也香!”米色女不甘示弱的对俩人说着:“哪里来的人渣?”红头发:“呦?妹妹,刚从学校毕业吧!毕业就整天听八嘎呀路啊?”"}], "ideal": ["C", "c"]}
{"input": [{"role": "user", "content": "从下列四个选项中选出最具文采的一个,你只需要回答文本选项前的编号,例如:A\n\nA:这一刻,我感觉自己站在时光隧道里,回到世纪初。十几年前,我还在自己生命的50年代。当我走进这个小小的依水环山、人文深厚、世外桃源般的小山村,便深深地爱上这里。这个深藏在黄土高原皱褶里的小山村,不声不响地经历了600年以上的岁月,不经意地成为了农耕历史和人文的经典。于是,我们中国民协决定把即将举行的“中国民间文化遗产抢救工程”的采样考察放在这里;将那年在北师大一次会议上,由季羡林、启功、于光远等近百位学者签名的关于抢救民间文化的“紧急声明”,从这里付诸实现。\nB:于是所有的事情都变得兜兜转转,他们说这就是人生啊像一场戏,那为何不心怀感激,毕竟他们来到你的世界里便把这戏演给你,可是,生活本身,没有演技,那些年的欢喜,全都笨拙起来,一幕幕都是滑稽。永远有一堆,想不通的道理,剥茧抽丝之后,又是重重山峦。那年偷偷使用的计算器从来算不清会有多少想念,云里雾里,道不明的梦境里。后来拒绝思考,如同拒绝同桌递过来的咬过一口的饼干。嫌弃脸是一个很可爱的表情,放在当年却没能笑出声。C:红尘攘攘,我只倾一人心,若水三千,我只取一瓢饮。君若不离不弃,我必生死相依。世间依旧熙攘着,而我独守一座风清月朗的城池,痴痴等你。但曾相见,一见倾心,再见倾情,我的爱,矢志不渝。有缘的人无论经过怎样的擦肩终会重逢,无份的人无论历尽怎样的爱恨终会离别。遇见你,我更加坚定了我们之间的缘分,自此将你珍藏在心底深处,守候一份永恒的爱恋,温暖相伴。喜欢听你说若离亦不弃,喜欢你说惟对我情之所钟,而我说浅浅遇深深藏,我说愿得一人心,白首不相离。\nD:“叔叔!把零食递给我”……刚想到她们,这三个疯丫头就玩累了跑回来了,害得我一个个抱到斜坡上,还好老赵没打牌,不然我自己伺候这三个小祖宗还真有点吃不消,看看玩牌的那几位,战况激烈,顾不上孩子了……“朋友啊!朋友!你可曾想起了我……”臧天朔的朋友响起,这回不是灯火那手机,而是行人中两个结伴而行的男人的手提音响中的歌曲。老歌为什么好听?因为那个年代的歌曲是自己年少时的纯洁。年过中年,心老了,心也由白变成黑色或灰色了,但每当年少时的歌曲响起,内心深处的深处那份洁白依然会感觉的到,忘情水的洒脱,同桌的你的痴情,笑脸的阳光,情网的悲伤。"}], "ideal": ["C", "c"]}
{"input": [{"role": "user", "content": "从下列四个选项中选出最具文采的一个,你只需要回答文本选项前的编号,例如:A\n\nA:神在天上,也在人的心里;神道度人,暗藏玄机,悟归自己。正视人生,感悟生命的意义,踏着包容、良善、仁爱的台阶,便趋步于神的境界了。凡人在这里最好保持沉默,把自己的心情首先打扫干净,这样才可以亲近神的圣体,感受到神的灵光。若是听不懂神的言语,最好远离,不要让污浊的行为亵渎了神的清明。对于普通的凡人,悄悄离开是对神最大的虔诚;尽快退回红尘中,让大山保持阒静与空寥,留住满山的玄奥与神秘。\nB:是依据杜诗的描写、明代的格局以及借鉴川西民居的特点,于97年时恢复重建的。再则,在“大雅堂”内陈列着的大型彩釉壁画是迄今为止国内最大面积的,有64平方米大。在“大雅堂”内还树立有12尊历代著名诗人,包括白居易、李清照等人的大型雕塑,展示了杜甫生平和中国古代诗歌的发展史,文化氛围很浓。那一天,站在“少陵草堂碑亭”前看着那些抢镜拍照的游客们,想起了老公曾经在那里照过的那张照片,一时间触景生情。那时,他很精干。可如今,他已经驾鹤西去了。C:也许冠名者觉得太过牵强才在前面加了个“瘦”字。不过,这条貌似极平常的河却有着厚重的历史文化底蕴,它曾是唐罗城与宋大城的护城河,明、清时期,富可敌国的扬州盐商们不惜重金竞相在河边建宅造园,多家亭园的汇集,使这里很早就形成了“两岸花柳全依水,一路楼台直到山”的胜境。我们每次都是从景区的南门进园,跟随着熙熙攘攘的人流往北走,脚下的这条路就叫长堤春晓。有时正逢烟花三月,通道旁树树桃花灿若晚霞,几步一株的垂柳像团团绿雾,一派醉人的江南春色。\nD:每年4月20日或19日,视太阳位置达黄经30°时开始。《月令七十二候集解》:‘北方春播作物播种、出苗的重要季节。此后,天气趋暖,雨水增多,有利谷类作物生长,俗称雨生百谷……’”俗话说:“春雨贵如油。”其实说的就是这个时候。因谷雨这个节气名源自于古人“雨生百谷”之说,还有《群芳谱》上说:“清明后十五日为谷雨,雨为天地之合气,谷得雨而生也。”谷雨的到来,万物复苏,湿润的土壤蕴含着蓬勃生机。“谷雨前后,种瓜得瓜,种豆得豆。”"}], "ideal": ["C", "c"]}

Copy link
Collaborator

@usama-openai usama-openai left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Thanks for submitting this eval! This PR looks good. However, I'm a little confused about this evaluation and have the following questions:

  1. What are the parameters on which literary grace level is evaluated? Is it something subjective, or is it evaluated based on some established criteria?
  2. What is the source of the dataset? Is it from a well-established source, or did you build it yourself?

We would love to review the PR again after the clarifications.

@Conghui-Niu
Copy link
Author

  1. Starting from Liu Xie's theory, the literary grace of the text is ultimately considered based on the following six characteristics: (1) Beauty of color: the picture painted by words is colorful and vivid, never dull; (2) Beauty of sound: the rhythm, tone, and fluctuation of language and characters can bring readers a catchy and tuneful sense; (3) Beauty of modification: the text language is rich and varied, mainly referring to sentence pattern and rhetoric; (4) Beauty of emotion: the text has complex and sincere emotion and resonates with readers; (5) Beauty of image: the scenery, character, and image depicted by language can bring the aesthetic feelings; (6) Beauty of philosophy: the text has a profound theme and contains the truth of life. The data is manually annotated by multiple annotators from the literary major.
  2. The dataset is from a well-established source (https://github.com/blcunlp/CLGC/). Detailed information can be found in the paper “CLGC: A Corpus for Chinese Literary Grace Evaluation”. Here is the link: https://aclanthology.org/2022.lrec-1.594/

@logankilpatrick logankilpatrick removed their request for review January 3, 2024 16:42
Copy link
Collaborator

@usama-openai usama-openai left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Thanks for the clarification. This PR looks good. I'm approving this PR.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

None yet

2 participants