Проекта ни представлява програма, която събира чист текст от редица линкове в световната мрежа, за да предостави на потребителя синтезирана информация на тема въведена от него.
Постига се чрез алгоритъм за генериране на тема, и такъв, който ходи по ликове и, за улеснение на потребителя, се форматира чрез markdown за по-лесна четимост.
Начин на изпълнение:
- Програмата се вика чрез терминала, за това потребителя трябва да има изтеглени Python 3+ и всички вкючени библиотеки
- Вика се от директорията заедно с един аргумент, който служи за тема(Пример: python crawl.py bgmama)
- Ще се мине през всички възможни линкове и ще извлече чистия текст от тях като се филтрира HTML кода
- След като изтече дължината и приключат операциите се текстът се записва в "text.md" където може да се отвори и прочете