-
Notifications
You must be signed in to change notification settings - Fork 128
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[Feat] RN Spider #220
base: master
Are you sure you want to change the base?
[Feat] RN Spider #220
Conversation
f05717e
to
7eede92
Compare
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Muito bom!
Além dos comentários que já fiz, você poderia adicionar pelo menos 1 PDF com testes do parser (como fiz no do Tocantins)? E caso existam PDFs relativamente diferentes, pode adicionar 1 de cada tipo (como fiz no de Rondônia).
Sobre os testes, não sei o que pode estar causando, mas localmente eles também passam. Pode ser versão de biblioteca no cache do pip ou alguma dependência que está faltando. |
@turicas Adicionei um caso de teste.
PS: Essa não é a única inconsistência de dados que esse layout tem. O scraper também falhou em pegar algumas cidades (provavelmente por conta de alguma questão de posicionamento desse layout específico - também não é um problema que aconteceu nos templates recentes), mas são erros facilmente identificados quando usamos a flag Acha que priorizamos esses casos agora ou então mexemos nisso conforme esses casos voltarem a acontecer? |
def _get_last_table_page_number(self): | ||
if self.date and self.date < datetime.date(2021, 6, 24): | ||
return 7 | ||
return 6 |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Dica: rows.plugins.pdf.number_of_pages(filename)
devolve o número de páginas do PDF. :)
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Perfeito!! Passei a usar :D
Implementando spider para o estado Rio Grande do Norte.
Fonte usada:
Esse spider: