Bruni, Stefano (2015) Spark su hadoop : una nuova via di estrazione dati. Bachelor thesis, Scuola universitaria professionale della Svizzera italiana, SUPSI.
![]() |
Text
POSTER_Stefano_Bruni.pdf Download (377kB) |
Abstract
La gestione ed il controllo di ogni minimo dettaglio sono di fondamentale importanza per mantenere sana un’impresa. La business intelligence si occupa di fornire gli strumenti (report e dashboard) necessari al controllo di cui sopra. Questo è reso possibile in quanto al giorno d’oggi la maggior parte dei processi aziendali è informatizzata; la conseguenza di ciò è che risulta assai semplice accedere ed estrarre i dati dai software in uso. Le nuove strategie di sviluppo software, per ambire a performance e scalabilità sempre migliori, hanno la tendenza a persistere i dati in maniera non strutturata e senza relazionarli tra di loro. Ciò pone però problemi in fase di estrazione dei dati, infatti in queste condizioni le tecniche tradizionali vengono meno. Dopo aver valutato a fondo i possibili approcci al problema si è deciso di percorrere la via della computazione parallela su cluster. In un primo momento è stata installata una piattaforma di calcolo distribuito chiamata Hortonworks Data Platform. Essa è basata completamente sul file system distribuito Hadoop. Per l’estrazione vera e propria è stato utilizzato Apache Spark, un motore generico adatto all’elaborazione di dati su larga scala. I dati estratti sono stati inseriti in tabelle Sql Server; su di esse è stato sviluppato un cubo OLAP. Tale strumento permette l’accesso da parte degli utenti con i più comuni mezzi di analisi. Questo approccio ha portato alla corretta estrazione e fruizione della maggior parte dei dati di interesse. Va messo in evidenza che anche a livello di performance i risultati sono incoraggianti, infatti i file di maggior dimensione (circa 750'000 righe, 291 MB) sono stati elaborati in poco meno di 5 minuti. A partire da questo progetto si possono pensare possibili sviluppi futuri: l’esplorazione di altre fonti dati non strutturate, l’analisi dei log generati dalle macchine, un approccio differente per lo stream dei dati verso la piattaforma.
Item Type: | Thesis (Bachelor) |
---|---|
Subjects: | Informatica |
Divisions: | Dipartimento tecnologie innovative > Ingegneria informatica |
URI: | http://tesi.supsi.ch/id/eprint/189 |
Actions (login required)
![]() |
View Item |