SABD : Analisi del dataset delle vaccinazioni anti Covid-19

Dataset

I file csv usati sono stati scaricati da repository-covid-19 il giorno 31/05/2021 e sono memorizzati nella cartella /data.

Prerequisiti

Installare Spark, al link è disponibile un breve tutorial.
Installare maven: apt install maven
Installare java

Modalità d'uso

Far partire lo spark master eseguendo il comando start-master.sh
compilare il maven project con i seguenti comandi:
- mvn compile; mvn package; mvn install
fare eseguire il docker-compose: ~ cd dist/hdfs/; docker-compose up per fare partire i container per l'HDFS
una volta ottenuto il jar target/SABD-Project_1-1.0-SNAPSHOT.jar a seguito del punto 3. è possibile eseguire gli script forniti nella cartella SABD-Project_1 dopo avergli concesso i permessi di esecuzione.

il JAR deve essere generato poiché la piattaforma non ne permette l'upload a causa delle sue dimensioni corrispondenti a ≈ 108MB

~ ./query1.sh
- ~ ./query2.sh
- ~ ./main.shper eseguire sia la query1 che la query 2

Per usare il programma in modalità debug basta usare il flag "-D"

~ ./query1.sh -D
~ ./query2.sh -D
~ ./main.sh -D

I risultati verranno esportati sia su hdfs che su una cartella locale denominata Results. Per verificarne il contenuto dell'omologa cartella su HDFS: hdfs dfs -ls /Results/query1 ehdfs dfs -ls /Results/query2 e farne il cat hdfs dfs -cat /Results/query1/csv-name, hdfs dfs -cat /Results/query1/csv-name

I tempi di esecuzione vengono stampati a schermo per ciascuna delle queries

DAG query1

Il grafico viene preso dal report del job disponibile in: SABD-TIZIANA-MANNUCCI-PROJECT - Details for Job query1.pdf

DAG query2

Il grafico viene preso dal report del job disponibile in: SABD-TIZIANA-MANNUCCI-PROJECT - Details for Job query2.pdf

Architettura per il test

I test sono stati effettuati su una macchina con le seguenti specifiche:

CPU: Intel(R) Core(TM) i7-9700K CPU @ 3.60GHz sbloccato (up to 4900MHz)
Motherboard: MPG Z390 GAMING PRO CARBON AC
RAM: 16GB DIMM DDR4 Synchronous 3200 MHz (0.3 ns) CMK16GX4M2B3200C16 a 64bit
Scheda grafica: MSI RTX 2070 super ventus

per ulteriori dettagli vedere il report

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
.idea		.idea
Images		Images
Results		Results
data		data
dist		dist
src/main		src/main
target		target
.gitignore		.gitignore
README.md		README.md
Relazione SABD - Tiziana Mannucci- 0285727.pdf		Relazione SABD - Tiziana Mannucci- 0285727.pdf
SABD - PROGETTO 1.pdf		SABD - PROGETTO 1.pdf
SABD - PROGETTO 1.pptx		SABD - PROGETTO 1.pptx
SABD-TIZIANA-MANNUCCI-PROJECT - Details for Job query1.pdf		SABD-TIZIANA-MANNUCCI-PROJECT - Details for Job query1.pdf
SABD-TIZIANA-MANNUCCI-PROJECT - Details for Job query2.pdf		SABD-TIZIANA-MANNUCCI-PROJECT - Details for Job query2.pdf
SABD2021_progetto1.pdf		SABD2021_progetto1.pdf
VaccinationQuery - Details for Stage 2 (Attempt 0).pdf		VaccinationQuery - Details for Stage 2 (Attempt 0).pdf
VaccinationQuery --groupby - Details for Stage 2 (Attempt 0).pdf		VaccinationQuery --groupby - Details for Stage 2 (Attempt 0).pdf
dependency-reduced-pom.xml		dependency-reduced-pom.xml
lshw.html		lshw.html
main.sh		main.sh
pom.xml		pom.xml
query1.sh		query1.sh
query2.sh		query2.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

SABD : Analisi del dataset delle vaccinazioni anti Covid-19

Dataset

Prerequisiti

Modalità d'uso

DAG query1

DAG query2

Architettura per il test

About

Releases

Packages

Languages

titianaMannu/SABD-TM-PROJECT1

Folders and files

Latest commit

History

Repository files navigation

SABD : Analisi del dataset delle vaccinazioni anti Covid-19

Dataset

Prerequisiti

Modalità d'uso

DAG query1

DAG query2

Architettura per il test

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages