[Feat] RN Spider #220

dehatanes · 2022-03-10T00:03:45Z

Implementando spider para o estado Rio Grande do Norte.

Fonte usada:

Boletins em pdf de http://www.saude.rn.gov.br/Conteudo.asp?TRAN=ITEM&TARG=240728&ACT=&PAGE=0&PARM=&LBL=ACERVO+DE+MAT%C9RIAS

Esse spider:

Faz o parse do boletim oficial pegando ✅ total oficial ✅ dados dos municípios ❌ dados importados (não são disponibilizados na fonte)

covid19br/parsers/rio_grande_do_norte.py

dehatanes · 2022-03-10T00:23:11Z

@turicas você sabe o que pode estar causando esse problema nos testes?
Localmente esse problema tinha rolado, mas foi consertado quando rodei pip install pymupdf cached-property. Tentei simular isso no commit 7eede92, mas aparentemente não funcionou 😅

covid19br/parsers/rio_grande_do_norte.py

turicas

Muito bom!
Além dos comentários que já fiz, você poderia adicionar pelo menos 1 PDF com testes do parser (como fiz no do Tocantins)? E caso existam PDFs relativamente diferentes, pode adicionar 1 de cada tipo (como fiz no de Rondônia).

covid19br/parsers/rio_grande_do_norte.py

covid19br/spiders/spider_rn.py

covid19br/parsers/rio_grande_do_norte.py

turicas · 2022-03-10T23:08:11Z

Sobre os testes, não sei o que pode estar causando, mas localmente eles também passam. Pode ser versão de biblioteca no cache do pip ou alguma dependência que está faltando.

dehatanes · 2022-03-12T05:56:40Z

@turicas Adicionei um caso de teste.
Eu estava adicionando outro exemplo mais antigo, mas peguei que o spider não estava se comportando bem no caso de Natal (por exemplo) desses pdf's (onde o numero de casos de mortes está quebrado em duas linhas).

http://www.adcon.rn.gov.br/ACERVO/sesap/DOC/DOC000000000260378.PDF (10 DE JUNHO DE 2021)
http://www.adcon.rn.gov.br/ACERVO/sesap/DOC/DOC000000000260013.PDF (07 DE JUNHO DE 2021)
Porém quando fui investigar esse é um problema que foi corrigido e não acontece nos pdf's recentes.
Parece que arrumar o extractor para considerar esse caso vai ser um trampo que poderia ser melhor investido no desenvolvimento de outro scraper.

PS: Essa não é a única inconsistência de dados que esse layout tem. O scraper também falhou em pegar algumas cidades (provavelmente por conta de alguma questão de posicionamento desse layout específico - também não é um problema que aconteceu nos templates recentes), mas são erros facilmente identificados quando usamos a flag --also-export-metadata.

Acha que priorizamos esses casos agora ou então mexemos nisso conforme esses casos voltarem a acontecer?

turicas · 2022-03-13T23:58:30Z

covid19br/parsers/rio_grande_do_norte.py

+    def _get_last_table_page_number(self):
+        if self.date and self.date < datetime.date(2021, 6, 24):
+            return 7
+        return 6


Dica: rows.plugins.pdf.number_of_pages(filename) devolve o número de páginas do PDF. :)

Perfeito!! Passei a usar :D

[Feat] RN Spider

1540c27

dehatanes commented Mar 10, 2022

View reviewed changes

covid19br/parsers/rio_grande_do_norte.py Show resolved Hide resolved

Fix depencies order

7eede92

dehatanes force-pushed the feat/rn-spider branch from f05717e to 7eede92 Compare March 10, 2022 00:18

turicas reviewed Mar 10, 2022

View reviewed changes

covid19br/parsers/rio_grande_do_norte.py Show resolved Hide resolved

turicas requested changes Mar 10, 2022

View reviewed changes

covid19br/parsers/rio_grande_do_norte.py Show resolved Hide resolved

covid19br/spiders/spider_rn.py Show resolved Hide resolved

covid19br/parsers/rio_grande_do_norte.py Outdated Show resolved Hide resolved

dehatanes added 4 commits March 12, 2022 01:28

[Spider RN] raise exception if date is not supported by extractor

4e454a2

[Spider RN] standardize extractor return

f460e55

[Fix RN Spider] old pdf's have a 7 table pages instead of 6

1417936

Adding a test case

d0d557c

dehatanes and others added 2 commits March 12, 2022 03:13

Add 1 more test case when a value is missing in the pdf

2dbdc47

Merge branch 'master' into feat/rn-spider

166384e

turicas reviewed Mar 13, 2022

View reviewed changes

Use method from rows to retrieve number of pages

a0a0a8f

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Feat] RN Spider #220

[Feat] RN Spider #220

dehatanes commented Mar 10, 2022 •

edited

Loading

dehatanes commented Mar 10, 2022

turicas left a comment

turicas commented Mar 10, 2022

dehatanes commented Mar 12, 2022

turicas Mar 13, 2022

dehatanes Mar 14, 2022

[Feat] RN Spider #220

Are you sure you want to change the base?

[Feat] RN Spider #220

Conversation

dehatanes commented Mar 10, 2022 • edited Loading

dehatanes commented Mar 10, 2022

turicas left a comment

Choose a reason for hiding this comment

turicas commented Mar 10, 2022

dehatanes commented Mar 12, 2022

turicas Mar 13, 2022

Choose a reason for hiding this comment

dehatanes Mar 14, 2022

Choose a reason for hiding this comment

dehatanes commented Mar 10, 2022 •

edited

Loading