Consulta CNPJ

Consulta de CNPJ no site da receita, quebrando o captcha, implementado em Python.

O modelo para quebra de captcha foi criado com base no brilhante trabalho de Daniel Falbel, Julio Trecenti, Caio Lente, Athos Damiani e todo o pessoal do decryptr. Inclusive a base de treino usada foi coletada por eles.

Instalação

Antes de mais nada você precisar ter disponível arquivo que carrega o modelo.

Local

O script necessita do curl para rodar. No Linux Debian/Ubuntu, basta rodar:

$ sudo apt-get install curl

Também devem ser instaladas as dependências listadas no requirements.txt.

Docker

Salve o arquivo do modelo como captcha_receita.h5 na raíz do projeto. Então:

$ docker build -t consulta_cnpj .
$ docker run -it --rm consulta_cnpj ipython

Uso

Para usar o scraper:

from consulta_cnpj import CrawlerReceita
crawler = CrawlerReceita()
print(crawler("60701190000104"))

Se o captcha_receita.h5 não estiver na raíz do projeto, você pode passar a localização dele na hora de instanciar a classe CrawlerReceita:

crawler = CrawlerReceita("/path/to/my/models/whatever.h5")
>>>>>>> Refactor main module

O modelo que quebra o captcha está com acurácia de 75%. Mais pra frente, vou deixá-lo rodando mais tempo para chegar a uns 95%.

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
consulta_cnpj.py		consulta_cnpj.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Consulta CNPJ

Instalação

Local

Docker

Uso

About

Releases

Packages

Languages

matenorio/consulta_cnpj

Folders and files

Latest commit

History

Repository files navigation

Consulta CNPJ

Instalação

Local

Docker

Uso

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages