Script para fazer download das teses e dissertações em repositórios de universidades brasileiras. No momento, o script suporta alguns repositórios específicos, mas a ideia é expandir para outros repositórios.
- Instalar dependências do projeto
git clone https://github.com/ApoenaX/theses-scraper.git
cd theses-scraper && pip install .
- Download de um trabalho
from theses_scraper.parsers import ParserFactory
from theses_scraper.downloader import DocumentDownloader
url = "https://monografias.ufma.br/jspui/handle/123456789/3510"
parser = ParserFactory.get_parser(url)
document: str | list[str] = parser.get_pdf_link(url)
downloader = DocumentDownloader("./data")
downloader.download(document)