Spark su hadoop : una nuova via di estrazione dati

Bruni, Stefano (2015) Spark su hadoop : una nuova via di estrazione dati. Bachelor thesis, Scuola universitaria professionale della Svizzera italiana, SUPSI.

[img] Text
POSTER_Stefano_Bruni.pdf

Download (377kB)

Abstract

La gestione ed il controllo di ogni minimo dettaglio sono di fondamentale importanza per mantenere sana un’impresa. La business intelligence si occupa di fornire gli strumenti (report e dashboard) necessari al controllo di cui sopra. Questo è reso possibile in quanto al giorno d’oggi la maggior parte dei processi aziendali è informatizzata; la conseguenza di ciò è che risulta assai semplice accedere ed estrarre i dati dai software in uso. Le nuove strategie di sviluppo software, per ambire a performance e scalabilità sempre migliori, hanno la tendenza a persistere i dati in maniera non strutturata e senza relazionarli tra di loro. Ciò pone però problemi in fase di estrazione dei dati, infatti in queste condizioni le tecniche tradizionali vengono meno. Dopo aver valutato a fondo i possibili approcci al problema si è deciso di percorrere la via della computazione parallela su cluster. In un primo momento è stata installata una piattaforma di calcolo distribuito chiamata Hortonworks Data Platform. Essa è basata completamente sul file system distribuito Hadoop. Per l’estrazione vera e propria è stato utilizzato Apache Spark, un motore generico adatto all’elaborazione di dati su larga scala. I dati estratti sono stati inseriti in tabelle Sql Server; su di esse è stato sviluppato un cubo OLAP. Tale strumento permette l’accesso da parte degli utenti con i più comuni mezzi di analisi. Questo approccio ha portato alla corretta estrazione e fruizione della maggior parte dei dati di interesse. Va messo in evidenza che anche a livello di performance i risultati sono incoraggianti, infatti i file di maggior dimensione (circa 750'000 righe, 291 MB) sono stati elaborati in poco meno di 5 minuti. A partire da questo progetto si possono pensare possibili sviluppi futuri: l’esplorazione di altre fonti dati non strutturate, l’analisi dei log generati dalle macchine, un approccio differente per lo stream dei dati verso la piattaforma.

Item Type: Thesis (Bachelor)
Subjects: Informatica
Divisions: Dipartimento tecnologie innovative > Ingegneria informatica
URI: http://tesi.supsi.ch/id/eprint/189

Actions (login required)

View Item View Item