Celem projektu było wykonanie analizy budżetów partycypacyjnych polskich miast pod kątem istniejących w nich wspólnych tematów, trendów, zależności.
Dane z katalogu 'inputs' pochodzą od: https://github.com/maryanoo/NLP-ekolo
Realizacja w ramach projektu NLP grupy Warszawsko-Międzymiastowo-Międzynarodowej https://github.com/DataWorkshop-Foundation/WMM-NLP-project
Wstępny notatnik obrazujący potencjalne możliwości analizy.
- Początkowa analiza tematów za pomocą UMAP i HDBSCAN
Użycie Bertopic i wyodrębnienie tematów z nazw budżetów.
- Ograniczenie ilości tematów do 20
Użycie LDA jako alternatywnej metody pozyskania tematów.
Zastosowanie modelu Top2Vec
- Wytrenowanie modelu
- Wizualizacja tematów
Utworzenie mapy z wizualną reprezentacją tematów
- Budżety partycypacyjne miały informacje z jakich miast pochodzą, co umożliwiło połączenie tego z utworzonymi wcześniej tematami i zwizualizowanie jakie regiony kraju posiadają poszczególne rodzaje budżetów
Plus notatniki:
- 07_bonus_colab_how_to_use_fasttext-ekolo_model.ipynb
- 08_bonus_how_to_make_glove-ekolo_model.ipynb
- 09_bonus_colab_how_to_use_glove-ekolo_model.ipynb
Dodatkowe notatniki pokazujące sposoby utworzenia i używania alternatywnych embeddingów.
Utworzenie encji (named entity recognition) w oparciu o słowa powiązane z wyodrębnionymi wcześniej tematami
Utworzenie grafu z zależnościami między poszczególnymi miastami. Liczba między miastami wskazuje ile dane miasto ma tematów podobnych z danym innym miastem.
Plus notatnik:
- 14_spell_checker_autocorrect.ipynb