Reorganizar scraper y utilities #250

fzuccolo · 2020-06-11T23:27:25Z

Scraping

Podríamos agrupar todo lo relacionado a la descarga de páginas y listas en el directorio src/scraping (con una sola p).

Mover utils/scraper.py y utils/workerpool.py a scraping/.
Extraer info relevante de utils/como_hacer_un_dump.txt y agregarla a scraping/readme.md
Mover src/list_articles_by_namespaces.py a src/scraper/
Mover la función get_lists de cdpetron a src/list_articles.py

Me parece que quedaría más lógico y fácil de extender, independiéntemente de la futura reimplementación del scraper:

src/
`-- scraping/
    |-- __init__.py
    |-- list_articles.py
    |-- list_articles_by_namespaces.py
    |-- portals.py
    |-- scraper.py
    `-- readme.md

Utilities

Mover src/xml_vs_html/ a utilities/xml_vs_html/

En src/utilities quedarían sólo scripts que no son usados por cdpedia o cdpetron. Habría que revisarlos para determinar si aún son relevantes:

utilities/
|-- xml_vs_html/
|-- benchmarkIndice.py
|-- buscarEnBloque.py
|-- descargaImagenes.py
|-- distrib_image.py
|-- makeLista.py
|-- parseaImagenes.py
|-- pick_samples.sh
|-- verComprimido.py
|-- verIndice.py
`-- xpm2pickle.py

The text was updated successfully, but these errors were encountered:

facundobatista · 2020-06-16T19:06:28Z

+1, con el detalle que utils/workerpool.py desaparece, y estaría bueno esperar a que scraper.py se use como lib, no como "script".

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Reorganizar scraper y utilities #250

Reorganizar scraper y utilities #250

fzuccolo commented Jun 11, 2020 •

edited

Loading

facundobatista commented Jun 16, 2020

Reorganizar scraper y utilities #250

Reorganizar scraper y utilities #250

Comments

fzuccolo commented Jun 11, 2020 • edited Loading

Scraping

Utilities

facundobatista commented Jun 16, 2020

fzuccolo commented Jun 11, 2020 •

edited

Loading