GitHub - tal-tech/chinese-k12-evaluation

CK12: A Rounded K12 Knowledge Graph Based Benchmark for Chinese Holistic Cognition Evaluation

Overview

我们利用了k12教育领域知识图谱构建了一个LLM的评估基准。该评测集包括500+个一级知识点和1900+个二级知识点，基本涵盖了K12教育领域的全面知识。本次评估的主要目的是全面评估LLM在中文语境下的高级理解能力和推理能力。我们的评估包括九个学科、五个不同的问题类型，共有41k个问题。我们使用了四种不同的测试模式来测试当前主流的LLM（zero-shot、few-shot、 zero-shot-cot、 few-shot-cot）。并对数学的cot结果进行了推理步骤的评测。

News

[2023.12.09] CK12 has been accepted to AAAI 2024 🎉🎉🎉

Leaderboard

我们的测试集在四种测试模式下，不同模型的表现 single，multi， filling， juding， sorting分别代表单选，多选，填空，判断，排序；single*代表选项被打乱，single**代表增加了10个干扰选项

数学推理子集步骤准确性评估

data

https://drive.google.com/drive/folders/1pvvhI_y1o5olcxHGGWFqt3SDv3PRX0rd?usp=drive_link

run testing

环境依赖：

torch 2.0.1

transformers 4.33.3

vllm 0.1.3

huggingface inference

原始数据是 data/original_data

打乱选项的数据是 data/shuffle_options

增加干扰选项的数据是 data/adding_10_distractor_options

bash code/release_code_aaai_ck12/inference_hf.sh data/original_data sava_name

vllm inference

bash code/release_code_aaai_ck12/inference_vllm.sh data/original_data sava_name

get metric

python code/release_code_aaai_ck12/metric.py

例子

文科和理科的题目例子

政治

生物

Citation

Please cite our paper if you use our dataset.

@article{you2023ck12,
title={CK12: A Rounded K12 Knowledge Graph Based Benchmark for Chinese Holistic Cognition Evaluation}, 
author={Weihao You, Pengcheng Wang, Changlong Li, Zhilong Ji and  Jinfeng Bai}
year={2023}
}

Name		Name	Last commit message	Last commit date
Latest commit History 35 Commits
code/release_code_aaai_ck12		code/release_code_aaai_ck12
images		images
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

code/release_code_aaai_ck12

code/release_code_aaai_ck12

images

images

README.md

README.md

Repository files navigation

CK12: A Rounded K12 Knowledge Graph Based Benchmark for Chinese Holistic Cognition Evaluation

Overview

News

Leaderboard

数学推理子集步骤准确性评估

data

run testing

环境依赖：

huggingface inference

vllm inference

get metric

例子

政治

生物

Citation

About

Releases

Packages

Languages

tal-tech/chinese-k12-evaluation

Folders and files

Latest commit

History

Repository files navigation

CK12: A Rounded K12 Knowledge Graph Based Benchmark for Chinese Holistic Cognition Evaluation

Overview

News

Leaderboard

数学推理子集步骤准确性评估

data

run testing

环境依赖：

huggingface inference

vllm inference

get metric

例子

政治

生物

Citation

About

Resources

Stars

Watchers

Forks

Languages