Skip to content

Latest commit

 

History

History
23 lines (15 loc) · 1.36 KB

README.md

File metadata and controls

23 lines (15 loc) · 1.36 KB

Διαχείριση Δεδομένων Μεγάλης Κλίμακας

Εξαμηνιαία Εργασία

Λάζαρος Αθανασιάδης (03400201), Άγγελος Μαρινάκης (03400225)

Περιέχομενα

  • experiments.ods: Οι 5 μετρήσεις που πήραμε για κάθε τρέξιμο (Ζητούμενα 3 και 4). Η διάμεσος παρουσιάζεται με bold και είναι η τιμή που χρησιμοποιούμε στην αναφορά.

  • report.pdf: Αναφορά με αναλυτικές απαντήσεις για κάθε ζητούμενο.

  • question*.py: Οι λύσεις για κάθε ερώτημα. Για τα ερωτήματα που χρειάζονταν παραπάνω από μία υλοποιήσεις, η κάθε υλοποίηση βρίσκεται σε διαφορετικό αρχείο.

  • utils.py: Σταθερές που χρησιμοποιούν τα παραπάνω προγράμματα.

Εκτέλεση

spark-submit τα question*.py αρχεία. O φάκελος ~/project_data στο HDFS πρέπει να έχει τα απαραίτητα datasets με τα ακόλουθα ονόματα:

  • Crime_Data_from_2010_to_2019.csv
  • Crime_Data_from_2020_to_Present.csv
  • revgeocoding.csv
  • income/LA_income_2015.csv
  • LAPD_Stations.csv