Sviluppo di strumenti per l'analisi automatica di testi in lingua italiana

Piatti, Aris (2017) Sviluppo di strumenti per l'analisi automatica di testi in lingua italiana. Bachelor thesis, Scuola Universitaria professionale della Svizzera italiana (SUPSI).

[img] Slideshow
POSTER_PIATTI.pptx

Download (261kB)

Abstract

Riassunto. Il Natural Language Processing (NLP) è una tecnica che negli ultimi anni è stata in grado di portare innumerevoli innovazioni nel mondo tecnologico, basti pensare agli assistenti virtuali come Siri o Google Assistant. NLP è anche sinonimo di machine learning, con l'avvento di nuovi algoritmi e processori sempre più performanti è infatti oggi giorno una tecnica ampliamente utilizzata. L'obiettivo di questo progetto è quello di valutare il funzionamento dei vari software attualmente presenti nell'ambito del NLP (Natural Language Processing), ed in particolare, nel confronto del PoS (Part Of Speech) tagging e dell'analisi delle dipendenze. Il confronto viene effettuato comparando l'output ottenuto dai software testati con una ground-truth di riferimento, fornita dal Dipartimento Formazione e Apprendimento (SUPSI-DFA) di Locarno. Per questo scopo sono stati realizzati degli script comparativi con l'ausilio del linguaggio di programmazione Python. Inizialmente si è reso necessario scoprire e collaudare i tool di analisi della lingua. Dopo questa fase introduttiva, si è iniziato a normalizzare e rendere confrontabili le due fonti di testo. In una seconda fase, sono state calcolate le percentuali di accuratezza grezze che hanno permesso di comprendere meglio il funzionamento e la precisione di ogni tool. In fine, sono state effettuate delle statistiche mirate, volte ad evidenziare i pregi e i difetti di ogni software. La realizzazione di matrici di confusione e di accuratezze generate per categoria hanno permesso un confronto diretto tra programmi. I risultati e le statistiche ottenute confrontando le due parti di testo, evidenziano che i software di NLP non funzionano come dichiarato nel caso in cui sono confrontati con un italiano non standard. Le percentuali di accuratezza ottenute sono infatti ben lungi da quelle annunciate dagli sviluppatori, e distano infatti almeno 10-15 punti percentuali da quanto dichiarato. Abstract. The Natural Language Processing (NLP) is a technique that nowadays is often used everywhere. A lot of virtual assistants like Siri and Google Assistant use NLP and machine learning, another technology that today, with new algorithms and highly performing CPUs, is widely used. This project's goal is to evaluate the use of the state of art tools nowadays available in the scope of NLP, particularly, in the field of PoS-tagging and dependency analysis. The comparison is made between the NLP's outputs and the ground-truth given by Dipartimento Formazione e Apprendimento (DFA) in Locarno. To evaluate and compare the two parts the use of the programming language Python is made. At the very beginning, there was the need to tests and discover the NLP tools. After that, it was mandatory to be able to compare the two parts, to achieve this, the texts needed to be normalized and cleaned. When the texts were able to be compared some general statistics were calculated to first evaluate every single tool. With more information, there was the ability to calculate more specific statistics such as: confusion matrixes and tags categories accuracies. These more precise calculations gave the possibility to evaluate better the tools in all the fields. The results obtained highlight that the NLP softwares don't perform as well as mentioned in their papers. This is due by the non-standard language contained in the analysed texts. The POS tagging accuracy was in fact 10%-15% lower than declared.

Item Type: Thesis (Bachelor)
Supervisors: Puccinelli, Daniele and Demartini, Silvia
Subjects: Informatica
Divisions: Dipartimento tecnologie innovative > Ingegneria informatica
URI: http://tesi.supsi.ch/id/eprint/1744

Actions (login required)

View Item View Item