Skip to content

tal-tech/chinese-k12-evaluation

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

35 Commits
 
 
 
 
 
 

Repository files navigation

CK12: A Rounded K12 Knowledge Graph Based Benchmark for Chinese Holistic Cognition Evaluation

Overview

我们利用了k12教育领域知识图谱构建了一个LLM的评估基准。 该评测集包括500+个一级知识点和1900+个二级知识点,基本涵盖了K12教育领域的全面知识。 本次评估的主要目的是全面评估LLM在中文语境下的高级理解能力和推理能力。 我们的评估包括九个学科、五个不同的问题类型,共有41k个问题。 我们使用了四种不同的测试模式来测试当前主流的LLM(zero-shot、few-shot、 zero-shot-cot、 few-shot-cot)。并对数学的cot结果进行了推理步骤的评测。

example.jpg

News

  • [2023.12.09] CK12 has been accepted to AAAI 2024 🎉🎉🎉

Leaderboard

我们的测试集在四种测试模式下,不同模型的表现 single,multi, filling, juding, sorting分别代表单选,多选,填空,判断,排序;single*代表选项被打乱,single**代表增加了10个干扰选项 example.jpg

数学推理子集步骤准确性评估

example.jpg

data

https://drive.google.com/drive/folders/1pvvhI_y1o5olcxHGGWFqt3SDv3PRX0rd?usp=drive_link

run testing

环境依赖:

torch 2.0.1

transformers 4.33.3

vllm 0.1.3

huggingface inference

原始数据是 data/original_data

打乱选项的数据是 data/shuffle_options

增加干扰选项的数据是 data/adding_10_distractor_options

bash code/release_code_aaai_ck12/inference_hf.sh data/original_data sava_name

vllm inference

bash code/release_code_aaai_ck12/inference_vllm.sh data/original_data sava_name

get metric

python code/release_code_aaai_ck12/metric.py

例子

文科和理科的题目例子

政治

example.jpg

生物

example.jpg

Citation

Please cite our paper if you use our dataset.

@article{you2023ck12,
title={CK12: A Rounded K12 Knowledge Graph Based Benchmark for Chinese Holistic Cognition Evaluation}, 
author={Weihao You, Pengcheng Wang, Changlong Li, Zhilong Ji and  Jinfeng Bai}
year={2023}
}

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published