Skip to content

matenorio/consulta_cnpj

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Consulta CNPJ

Consulta de CNPJ no site da receita, quebrando o captcha, implementado em Python.

O modelo para quebra de captcha foi criado com base no brilhante trabalho de Daniel Falbel, Julio Trecenti, Caio Lente, Athos Damiani e todo o pessoal do decryptr. Inclusive a base de treino usada foi coletada por eles.

Instalação

Antes de mais nada você precisar ter disponível arquivo que carrega o modelo.

Local

O script necessita do curl para rodar. No Linux Debian/Ubuntu, basta rodar:

$ sudo apt-get install curl

Também devem ser instaladas as dependências listadas no requirements.txt.

Docker

Salve o arquivo do modelo como captcha_receita.h5 na raíz do projeto. Então:

$ docker build -t consulta_cnpj .
$ docker run -it --rm consulta_cnpj ipython

Uso

Para usar o scraper:

from consulta_cnpj import CrawlerReceita
crawler = CrawlerReceita()
print(crawler("60701190000104"))

Se o captcha_receita.h5 não estiver na raíz do projeto, você pode passar a localização dele na hora de instanciar a classe CrawlerReceita:

crawler = CrawlerReceita("/path/to/my/models/whatever.h5")
>>>>>>> Refactor main module

O modelo que quebra o captcha está com acurácia de 75%. Mais pra frente, vou deixá-lo rodando mais tempo para chegar a uns 95%.

About

Consulta de CNPJ no site da Receita

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 93.6%
  • Dockerfile 6.4%