Skip to content

lathanasiadis/big-data-project

Repository files navigation

Διαχείριση Δεδομένων Μεγάλης Κλίμακας

Εξαμηνιαία Εργασία

Λάζαρος Αθανασιάδης (03400201), Άγγελος Μαρινάκης (03400225)

Περιέχομενα

  • experiments.ods: Οι 5 μετρήσεις που πήραμε για κάθε τρέξιμο (Ζητούμενα 3 και 4). Η διάμεσος παρουσιάζεται με bold και είναι η τιμή που χρησιμοποιούμε στην αναφορά.

  • report.pdf: Αναφορά με αναλυτικές απαντήσεις για κάθε ζητούμενο.

  • question*.py: Οι λύσεις για κάθε ερώτημα. Για τα ερωτήματα που χρειάζονταν παραπάνω από μία υλοποιήσεις, η κάθε υλοποίηση βρίσκεται σε διαφορετικό αρχείο.

  • utils.py: Σταθερές που χρησιμοποιούν τα παραπάνω προγράμματα.

Εκτέλεση

spark-submit τα question*.py αρχεία. O φάκελος ~/project_data στο HDFS πρέπει να έχει τα απαραίτητα datasets με τα ακόλουθα ονόματα:

  • Crime_Data_from_2010_to_2019.csv
  • Crime_Data_from_2020_to_Present.csv
  • revgeocoding.csv
  • income/LA_income_2015.csv
  • LAPD_Stations.csv

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages