Skip to content

PatrykML/twitter_sentiment_stock_prediction

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

97 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Kod źródłowy ustrukturyzowany jest w pięciu katalogach:

* datasets - katalog w którym znajdują się wszystkie zbiory danych z których korzystałem w pracy,
* data_cleaning - wszystkie narzędzia które zostały wykorzystane do eksploracji danych, wyczyszczenia ich oraz połączenia,
* models - katalog w którym znajdują się modele na podstawie których uzyskałem wyniki,
* plots - katalog z wykresami wykorzystanymi w pracy,
* results - katalog z wynikami w formie tekstowej.

Każdy plik z rozszerzeniem ipynb i py posiada krótki opis na temat jego przeznaczenia.

W models możemy znaleźć wszystkie modele predykcyjne, test metodą Grangera i obliczenie liczb Shapleya.

W data_cleaning znajdziemy wstępną eksploracje danych twitterowych i giełdowych, sprawdzenie korelacji Pearsona, wyczyszczenie danych, stworzenie wszystkich zmiennych pomocniczych i agregacje danych.

W datasets znajdziemy pliki z historycznymi notowaniami giełdy, tweety i zagregowanymi danymi dla każdej spółki. Najnowsze dane w finalnej postaci dla każdej spółki znajdują się w katalogu datasets/v3.

Katalogi plots i results zawierają pliki z wynikami przedstawionymi w formie wykresów w istnotności cech i formie tekstowej w przypadku trafności, F1 i ROC.

Project from a blog post: https://medium.com/@wieczorekpatryk98/4-important-things-ive-learned-from-my-first-big-data-science-project-and-how-can-they-save-you-dfad06f9304e

About

My first big data science project (In Polish)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published