Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

下面这人为什么合并出来是2个,感觉是一个人才对啊。要怎样才能修正? #90

Open
samxiaocd opened this issue Jan 2, 2021 · 3 comments

Comments

@samxiaocd
Copy link
Contributor

下面这人为什么合并出来是2个,感觉是一个人才对啊。

图片

school_oped.txt

上海,宝山区,上海市杨泰实验学校

data.txt:
CSP2019提高,二等奖,吴思成,小学/无,上海市杨泰实验学校,154,上海,男,
CSP2019入门,二等奖,吴思成,小学/无,上海市杨泰实验学校,210,上海,男,
APIO2020,铜牌,吴思成,五年级,上海市杨泰实验学校,44,上海,男,
CSP2020提高,一等奖,吴思成,小学,上海外国语大学附属外国语学校,230,上海,男,
CSP2020入门,二等奖,吴思成,小学,上海外国语大学附属外国语学校,155,上海,男,

============================
result.csv:
4104,吴思成,,,wsc,3,139,"[{'identity': 'CSP2020提高', 'ctype': 'CSP提高', 'award_type': '一等奖', 'grade': '小学', 'school': '上海外国语大学附属外国语学校', 'school_id': 117, 'score': '230', 'province': '上海', 'rank': 747}, {'identity': 'CSP2020入门', 'ctype': 'CSP入门', 'award_type': '二等奖', 'grade': '小学', 'school': '上海外国语大学附属外国语学校', 'school_id': 117, 'score': '155', 'province': '上海', 'rank': 4639}, {'identity': 'CSP2019提高', 'ctype': 'CSP提高', 'award_type': '二等奖', 'grade': '小学/无', 'school': '上海市杨泰实验学校', 'school_id': 3342, 'score': '154', 'province': '上海', 'rank': 4676}, {'identity': 'CSP2019入门', 'ctype': 'CSP入门', 'award_type': '二等奖', 'grade': '小学/无', 'school': '上海市杨泰实验学校', 'school_id': 3342, 'score': '210', 'province': '上海', 'rank': 2986}]",1,11.34,2020

15029,吴思成,,,wsc,3,139,"[{'identity': 'APIO2020', 'ctype': 'APIO', 'award_type': '铜牌', 'grade': '五年级', 'school': '上海市杨泰实验学校', 'school_id': 3342, 'score': '44', 'province': '上海', 'rank': 544}]",1,2.72,2020

识别一个人的标准是:省,学校,姓名三者相同吗?
要怎样才能修正?

@samxiaocd
Copy link
Contributor Author

李元鹏, 方晓楠, 程楷轩, 王羿涵(高中降过级?还是同名?) 也是。

@samxiaocd
Copy link
Contributor Author

仲 14:04:51
data.txt 5条记录改为如下:
CSP2019提高,二等奖,吴思成,小学/无,上海市杨泰实验学校,154,上海,男,A
CSP2019入门,二等奖,吴思成,小学/无,上海市杨泰实验学校,210,上海,男,A
APIO2020,铜牌,吴思成,五年级,上海市杨泰实验学校,44,上海,男,A
CSP2020提高,一等奖,吴思成,小学,上海外国语大学附属外国语学校,230,上海,男,A
CSP2020入门,二等奖,吴思成,小学,上海外国语大学附属外国语学校,155,上海,男,A

python new_merger.py 执行后,生成的result.csv还是2条,

4104,吴思成,,,wsc,3,139,"[{'identity': 'CSP2020提高', 'ctype': 'CSP提高', 'award_type': '一等奖', 'grade': '小学', 'school': '上海外国语大学附属外国语学校', 'school_id': 117, 'score': '230', 'province': '上海', 'rank': 747}, {'identity': 'CSP2020入门', 'ctype': 'CSP入门', 'award_type': '二等奖', 'grade': '小学', 'school': '上海外国语大学附属外国语学校', 'school_id': 117, 'score': '155', 'province': '上海', 'rank': 4639}, {'identity': 'CSP2019提高', 'ctype': 'CSP提高', 'award_type': '二等奖', 'grade': '小学/无', 'school': '上海市杨泰实验学校', 'school_id': 3342, 'score': '154', 'province': '上海', 'rank': 4676}, {'identity': 'CSP2019入门', 'ctype': 'CSP入门', 'award_type': '二等奖', 'grade': '小学/无', 'school': '上海市杨泰实验学校', 'school_id': 3342, 'score': '210', 'province': '上海', 'rank': 2986}]",1,11.34,2020

15029,吴思成,,,wsc,3,139,"[{'identity': 'APIO2020', 'ctype': 'APIO', 'award_type': '铜牌', 'grade': '五年级', 'school': '上海市杨泰实验学校', 'school_id': 3342, 'score': '44', 'province': '上海', 'rank': 544}]",1,2.72,2020

这个方法似乎不行。

仲 14:05:20
是 new_merger.py 这里面合并逻辑的问题?

仲 14:06:04
识别为同一个人的规则是什么? 省,学校,姓名...相同?

图片
图片

@samxiaocd
Copy link
Contributor Author

samxiaocd commented Jan 9, 2021

在我的新的PR中修正了此问题。看看能否合并。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant