Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

NER for persons produces over 99% mistaken forms under specific conditions #93

Open
alexmosc opened this issue Nov 26, 2020 · 0 comments

Comments

@alexmosc
Copy link

Consider a use case, where we need to detect typos in person names that appear in news texts.

Example of true positive:

"
Второй его лентой была криминальная драма "Проклятый путь" (2002) о гангстерской Америке 1930-х гг. Захватывающая история мести мужчины за смерть сына и жены, а также звездный актерский состав (Том Хэнкс, Пол Ньюман, Дэниел Крэйг, Джуд Лоу и др.) позволили картине собрать в мировом прокате почти 200 млн долларов.

...

Затем режиссер снял два эпизода знаменитой кинофраншизы о приключениях агента британской разведки Джеймса Бонда - "007: координаты "Скайфол" (2012) и "007: спектр" (2015) с Дэниелом Крейгом. Фильмы собрали в прокате 1,1 млрд и 900 млн долларов
"

The typo here is in either "Крэйгом" or "Крейгом".

To obtain this we use method normal in Natasha NER. We then compare the normal forms across a document and select those which differ by 1 symbol in terms of the Levenstein distance.

The issue

When the normal forms of person names produced by Natasha NER are selected, compared and filtered by the Levenstein distance equal 1, the resulting list contains over 99% of false positive typo cases.

A selection of mistakes produced by the normal forms is not the chart:
image

Example of a mistaked normal form:

"
ПОЛИТИКА: ВЫБОРЫ-ГУБЕРНАТОР-КАНДИДАТЫ-РЕГИСТРАЦИЯ-КАМЧАТКА\r\nПять человек зарегистрированы кандидатами на пост губернатора Камчатки - избирком\r\n\r\nПЕТРОПАВЛОВСК-КАМЧАТСКИЙ, 4 августа. /ТАСС/. Избирательная комиссия Камчатского края зарегистрировала 5 кандидатов на пост губернатора региона, выборы которого пройдут в сентябре. Об этом сообщили ТАСС во вторник в комиссии.\r\n"Из 16 претендентов, объявлявших о своем желании поучаствовать в выборах, свои данные для регистрации кандидатом на пост губернатора Камчатского края предоставили 8 человек. Однако троим было отказано по разным причинам. В избирательные бюллетени войдут пять фамилий: Дмитрий Бобровских от партии "Справедливая Россия", Валерий Калашников от ЛДПР, Александр Остриков от "Патриотов России", самовыдвиженец Владимир Солодов и представитель Партии Роста Максим Близнюков", - уточнили в избирательной комиссии.\r\nКандидату от КПРФ Валерию Быкову было отказано в регистрации, так как он предоставил недостаточное количество подписей депутатов в поддержку своего выдвижения и регистрации. Представитель "Гражданской платформы" Андрей Лиходедов также не смог предоставить необходимое количество подписей. Самовыдвиженцу Этибару Тагиеву отказано в регистрации по этой же причине.\r\nПрезидент РФ Владимир Путин 3 апреля принял отставку Владимира Илюхина с поста губернатора Камчатки и назначил Владимира Солодова врио руководителя региона. Досрочные выборы губернатора края будут проходить 11, 12 и 13 сентября 2020 года. --0--бку/би/тв

Instead of finding a typo we get a false positive, stemminn from incorrect normal form for one of the names appeared in text:

image

"Владимир Солодова" is the wrong one.

On our sample of texts we found that over 99% of reported normal forms that differ by 1 symbol are the result of wrong normalization rather than typos in text.

A top-20 list of such mistaken normal forms is the following:

image

A full document with about 10K examples (5K unique examples) with such instances was sent to the author (@kuk ) directly, following the non-disclosure of information used for commercial purposes.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant