Un projet pour la plateforme Cortext
Crawtext est un crawler ou un robot d'indexation de texte qui permet la constitution de gros corpus web textuels issus de page web autour d'une expression de recherche donnée de manière récurrente selon la fréquence souhaitée.
Initialement prévue pour être intégrée à la plateforme Cortext Manager comme un outil de constitution de datasets issu du web. Elle fonctionne pour le moment en mode console et de manière indépendante.
Vous trouverez donc ici la documentation complète sur Crawtext ainsi que des cas d'utilisation
- Introduction
- Qu'est ce que Crawtext?
- A quoi ça sert?
- Comment ça marche?
- Les stratégies de crawl
- Installation
- Configuration
- Tutoriel
- API reference
- Developer Guide
- Next steps
- Changelog
- Usecases
- Publications
- References
- Glossary