Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Feat] RN Spider #220

Open
wants to merge 9 commits into
base: master
Choose a base branch
from
Open

Conversation

dehatanes
Copy link
Contributor

@dehatanes dehatanes commented Mar 10, 2022

Implementando spider para o estado Rio Grande do Norte.

Fonte usada:

Esse spider:

  • Faz o parse do boletim oficial pegando ✅ total oficial ✅ dados dos municípios ❌ dados importados (não são disponibilizados na fonte)

@dehatanes
Copy link
Contributor Author

@turicas você sabe o que pode estar causando esse problema nos testes?
Localmente esse problema tinha rolado, mas foi consertado quando rodei pip install pymupdf cached-property. Tentei simular isso no commit 7eede92, mas aparentemente não funcionou 😅

Copy link
Owner

@turicas turicas left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Muito bom!
Além dos comentários que já fiz, você poderia adicionar pelo menos 1 PDF com testes do parser (como fiz no do Tocantins)? E caso existam PDFs relativamente diferentes, pode adicionar 1 de cada tipo (como fiz no de Rondônia).

covid19br/parsers/rio_grande_do_norte.py Show resolved Hide resolved
covid19br/spiders/spider_rn.py Show resolved Hide resolved
covid19br/parsers/rio_grande_do_norte.py Outdated Show resolved Hide resolved
@turicas
Copy link
Owner

turicas commented Mar 10, 2022

Sobre os testes, não sei o que pode estar causando, mas localmente eles também passam. Pode ser versão de biblioteca no cache do pip ou alguma dependência que está faltando.

@dehatanes
Copy link
Contributor Author

@turicas Adicionei um caso de teste.
Eu estava adicionando outro exemplo mais antigo, mas peguei que o spider não estava se comportando bem no caso de Natal (por exemplo) desses pdf's (onde o numero de casos de mortes está quebrado em duas linhas).

PS: Essa não é a única inconsistência de dados que esse layout tem. O scraper também falhou em pegar algumas cidades (provavelmente por conta de alguma questão de posicionamento desse layout específico - também não é um problema que aconteceu nos templates recentes), mas são erros facilmente identificados quando usamos a flag --also-export-metadata.

Acha que priorizamos esses casos agora ou então mexemos nisso conforme esses casos voltarem a acontecer?

Comment on lines 178 to 181
def _get_last_table_page_number(self):
if self.date and self.date < datetime.date(2021, 6, 24):
return 7
return 6
Copy link
Owner

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Dica: rows.plugins.pdf.number_of_pages(filename) devolve o número de páginas do PDF. :)

Copy link
Contributor Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Perfeito!! Passei a usar :D

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants