Sviluppo di un sistema sperimentale per la sonificazione di stream video per applicazioni museali

Mellace, Simone (2018) Sviluppo di un sistema sperimentale per la sonificazione di stream video per applicazioni museali. Diploma thesis, Scuola Universitaria Professionale della Svizzera Italiana.

[img] Text
DOC_MELLACE.pdf

Download (1MB)
[img] Text
POSTER_MELLACE.pdf

Download (274kB)

Abstract

Video2Sound è un progetto sviluppato inizialmente da IDSIA e poi da me ripreso, utile a trasformare delle immagini, acquisite attraverso una telecamera, in suono. Questo progetto mira a sviluppare un sistema solido e utilizzabile per delle dimostrazioni museali. L’applicazione si occupa di riconoscere dei soggetti presenti in determinati fotogrammi, attraverso tecniche di Machine Learning e di generare delle tracce audio, utilizzando un sintetizzatore granulare. L’algoritmo prevede di identificare la similitudine fra il frame ripreso dalla telecamera e quelli provenienti da alcuni file video ricevuti in input. Attraverso questa associazione sarà possibile, in un secondo momento, generare delle tracce audio inedite utilizzando l’audio dei video ricevuti in input. Il tutto è stato sviluppato in Python 3, appoggiandosi a frameworks come TensorFlow, Keras e Imagenet: un grande dataset di immagini classificate. Mentre per la generazione dell’audio è stata utilizza la libreria Pyo, la quale permette di plasmare dei suoni utilizzando sintetizzatori audio di diverso genere. --- Video2Sound is a project developed initially by IDSIA and then took over by me, useful to convert images, acquired with a camera, into sounds. The aim of this project is to develop a grounded demonstrative system. The application takes care of recognising images, using Machine Learning techniques and generating audio tracks, via a Granular Synthesis. The algorithm recognizes the similarity between the frame obtained by the webcam and some others frames received through input videos. After that, it will be possible to create some new sounds using sound synthesizers. Everything has been developed using Python 3 in accordance with frameworks like TensorFlow, Keras and Imagenet: a huge images dataset. While for audio generations, it has been used Pyo library, which allows to generate audio through differents kinds of sound synthesizers

Item Type: Thesis (Diploma)
Supervisors: Gambardella, Luca Maria and Giusti, Alessandro and Guzzi, Jérôme
Subjects: Informatica
Divisions: Dipartimento tecnologie innovative > Ingegneria informatica
URI: http://tesi.supsi.ch/id/eprint/2373

Actions (login required)

View Item View Item