Skip to content

Celem projektu było wykonanie analizy budżetów partycypacyjnych polskich miast pod kątem istniejących w nich wspólnych tematów, trendów, zależności.

Notifications You must be signed in to change notification settings

MariuszAndziak/NLP-ekolo

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

62 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Analiza językowej budżetów partycypacyjnych polskich miast

Generic badge

Celem projektu było wykonanie analizy budżetów partycypacyjnych polskich miast pod kątem istniejących w nich wspólnych tematów, trendów, zależności.

Dane z katalogu 'inputs' pochodzą od: https://github.com/maryanoo/NLP-ekolo

Realizacja w ramach projektu NLP grupy Warszawsko-Międzymiastowo-Międzynarodowej https://github.com/DataWorkshop-Foundation/WMM-NLP-project

00_ideas_and_issues.ipynb

Wstępny notatnik obrazujący potencjalne możliwości analizy.

  • Początkowa analiza tematów za pomocą UMAP i HDBSCAN

02_bertopic_colab.ipynb

Użycie Bertopic i wyodrębnienie tematów z nazw budżetów.

  • Ograniczenie ilości tematów do 20

03_lda.ipynb

Użycie LDA jako alternatywnej metody pozyskania tematów.

04_bonus_top2vec_vis.ipynb

Zastosowanie modelu Top2Vec

  • Wytrenowanie modelu
  • Wizualizacja tematów

05_visualisation_map.ipynb

Utworzenie mapy z wizualną reprezentacją tematów

  • Budżety partycypacyjne miały informacje z jakich miast pochodzą, co umożliwiło połączenie tego z utworzonymi wcześniej tematami i zwizualizowanie jakie regiony kraju posiadają poszczególne rodzaje budżetów

06_bonus_how_to_make_fasttext-ekolo_model.ipynb

Plus notatniki:

  • 07_bonus_colab_how_to_use_fasttext-ekolo_model.ipynb
  • 08_bonus_how_to_make_glove-ekolo_model.ipynb
  • 09_bonus_colab_how_to_use_glove-ekolo_model.ipynb

Dodatkowe notatniki pokazujące sposoby utworzenia i używania alternatywnych embeddingów.

11_ner.ipynb

Utworzenie encji (named entity recognition) w oparciu o słowa powiązane z wyodrębnionymi wcześniej tematami

12_graph_cities.ipynb

Utworzenie grafu z zależnościami między poszczególnymi miastami. Liczba między miastami wskazuje ile dane miasto ma tematów podobnych z danym innym miastem.

14_1_spell_checker_JamSpell.ipynb

Plus notatnik:

  • 14_spell_checker_autocorrect.ipynb

Różne metody sprawdzenia pisowni w nazwach budżetów.

About

Celem projektu było wykonanie analizy budżetów partycypacyjnych polskich miast pod kątem istniejących w nich wspólnych tematów, trendów, zależności.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published