GitHub - JonathanRaiman/wikipedia_ner: :book: Labeled examples from wiki dumps in Python

Wikipedia NER

Tool to train and obtain named entity recognition labeled examples from Wikipedia dumps.

Usage in IPython notebook (nbviewer link).

Usage

Here is an example usage with the first 200 articles from the english wikipedia dump (dated lated 2013):

parseresult = wikipedia_ner.parse_dump("enwiki.bz2",
                        max_articles = 200)
most_common_category = wikipedia_ner.ParsedPage.categories_counter.most_common(1)[0][0]

most_common_category_children = [
		parseresult.index2target[child] for child in list(wikipedia_ner.ParsedPage.categories[most_common_category].children)
		]

"In '%s' the children are %r" % (
	most_common_category,
	", ".join(most_common_category_children)
	)

#=> "In 'Category : Member states of the United Nations' the children are 'Afghanistan, Algeria, Andorra, Antigua and Barbuda, Azerbaijan, Angola, Albania'"

Name		Name	Last commit message	Last commit date
Latest commit History 29 Commits
.ipynb_checkpoints		.ipynb_checkpoints
wikipedia_ner		wikipedia_ner
.gitignore		.gitignore
Export Categories.ipynb		Export Categories.ipynb
Export Page Links.ipynb		Export Page Links.ipynb
MANIFEST.in		MANIFEST.in
README.md		README.md
Simplify Graph.ipynb		Simplify Graph.ipynb
Wikipedia to Named Entity Recognition.ipynb		Wikipedia to Named Entity Recognition.ipynb
resolve_redirections.py		resolve_redirections.py
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.ipynb_checkpoints

.ipynb_checkpoints

wikipedia_ner

wikipedia_ner

.gitignore

.gitignore

Export Categories.ipynb

Export Categories.ipynb

Export Page Links.ipynb

Export Page Links.ipynb

MANIFEST.in

MANIFEST.in

README.md

README.md

Simplify Graph.ipynb

Simplify Graph.ipynb

Wikipedia to Named Entity Recognition.ipynb

Wikipedia to Named Entity Recognition.ipynb

resolve_redirections.py

resolve_redirections.py

setup.py

setup.py

Repository files navigation

Wikipedia NER

Usage

About

Releases

Packages

Languages

JonathanRaiman/wikipedia_ner

Folders and files

Latest commit

History

Repository files navigation

Wikipedia NER

Usage

About

Topics

Resources

Stars

Watchers

Forks

Languages