You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
При использовании AddressExtractor в webcrawler'е столкнулся с проблемой, что на некоторых веб-страницах natasha съедает всю память. Запускал даже на сервере с 32 Гб оперативы. Начал искать проблемную страницу. Ей оказалась http://advokatvrn.ru/about/. Для чистоты эксперимента написал код извлечения адресов в jupyter, используя только AddressExtractor. Предположения подтвердились. Текст страницы не какой-то огромный, обычный текст, адресов на странице не много, из-за чего такое происходит, не могу понять.
The text was updated successfully, but these errors were encountered:
При использовании AddressExtractor в webcrawler'е столкнулся с проблемой, что на некоторых веб-страницах natasha съедает всю память. Запускал даже на сервере с 32 Гб оперативы. Начал искать проблемную страницу. Ей оказалась http://advokatvrn.ru/about/. Для чистоты эксперимента написал код извлечения адресов в jupyter, используя только AddressExtractor. Предположения подтвердились. Текст страницы не какой-то огромный, обычный текст, адресов на странице не много, из-за чего такое происходит, не могу понять.
The text was updated successfully, but these errors were encountered: