Anna Corazza: didattica
Possibili argomenti di tesi/laboratorio interdisciplinare
È possibile svolgere tesi (laurea specialistica o
quinquennale) preferibilmente su argomenti legati all'elaborazione
del linguaggio naturale, information retrieval,
ingegneria del software e bioinformatica. Per ulteriori
informazioni e approfondimenti potete venire in orario di ricevimento
oppure fissare un appuntamento via posta elettronica. Le tesi
si svolgono presso il KnomeLab.
Di seguito alcuni possibili argomenti:
- Sviluppo di un nuovo approccio (semi)-automatico che utilizza
conoscenza onotologica (GENIA,
ontologia estratta da articoli scentifici di bionformatica) per
l'estrazione e/o classificazione automatica di relazioni e concetti
all'interno di frasi in linguaggio naturale. Le ontologie svolgono un
ruolo fondamentale nell'ambito del Semantic Web e molti
metodi(semi)-automatici, basati su modelli probabilistici, utilizzano
questa conoscenza (descrizione formale estratti testi del web) per
risolvere diversi problemi di information retrieval, information
extraction e data integration. Tipicamente il corso di *Information
Retrieval* dà delle basi generali sia per quel che riguarda le
competenze di apprendimento automatico che di modelli probabilistici:
è quindi consigliabile anche se non strettamene
necessario.
Keyword:
Bionformatica, Classificazione, Semantic
Web, Machine Learning.
- Costruzione e aggiornamento di ontologie a partire da
testi, in particolare estrazione e etichettatura di entità e
relazioni con metodi di apprendimento automatico. Questo è un
filone di ricerca attivo nel laboratorio e si possono trovare diversi
argomenti maggiormente legati a tematiche di apprendimento
automatico (clustering e classificazione di testi),
elaborazione automatica del linguaggio naturale e
bioinformatica. Di seguito alcuni esempi di problematiche: a
seconda del background culturale dello studente si potrà
scegliere una tematica piuttosto che un'altra. Tipicamente il corso di
Information retrieval dà delle basi generali sia per
quel che riguarda le competenze di apprendimento automatico che di
elaborazione dei testi: è quindi consigliabile anche se non
strettamente necessario. Alcuni esempi di tesi potrebbero essere:
- Clustering. Studio e confronto di algoritmi di clustering
su problemi con un grande numero di caratteristiche (quali testi, o
problemi di bioinformatica).
- Analisi sintattica: Analisi per l'italiano: confronto tra
diversi tipi di parser su dati presi da diversi contesti, tra cui
giornali, testi legali, wikipedia. La tesi prevede lo studio delle
problematiche di elaborazione del linguaggio naturale relative
all'analisi sintattica automatica del linguaggio. Il lavoro
sperimentale necessario per la tesi si basa in parte su parser
già esistenti, ma sarà necessario imparare l'uso di un
linguaggio di scripting (ad esempio, python o perl) per le
elaborazioni necessarie.
- Bioinformatica: caratterizzazione di geni con metodi
statistici.
- Ingegneria del software: recentemente l'integrazione di
modelli probabilistici e modelli computazionali ha trovato
applicazione nell'analisi dei sistemi software e, in particolare,
nella verifica delle loro proprietà. A partire da tali lavori,
l'obiettivo della tesi è quello di progettare e implementare un
sistema di analisi automatica di software basato su tali approcci e di
effettuare un'analisi sperimentale su casi di prova al fine di
valutarne efficacia e prestazioni. Il lavoro di tesi si colloca a
cavallo tra le tematiche di ingegneria del software, fondamenti di
linguaggi di programmazione, linguaggi formali, calcolo delle
probabilità, compilatori (in collaborazione col
Prof. Benerecetti).
- Ingegneria del software: applicazione di tecniche di
information retrieval all'analisi di repository software o comunque di
artefatti software (in collaborazione col Prof. Di Martino).
Tesi quinquennali e specialistiche concluse o in corso (elenco non
aggiornato)
- Federico Lauria, "Estrazione
automatica di concetti ontologici da testo in italiano".
- Ennio Masi, "Un approccio di Information Retrieval
all'identificazione di componenti in repository software", in collaborazione
col Prof. Di Martino.
- Davide Marino, "Machine learning techniques for gene analysis", in
collaborazione con il prof. Mario Nicodemi.
- Davide Dell'Erba, "Parsing probabilistico su treebank alle
dipendenze".
- Vincenzo Russo, "Confronto tra tecniche di clustering: support
vector clustering e clustering con la divergenza di Bregman". Maggiori
informazioni sul blog.
- Fabrizio Schirru, "Letteratura scientifica e ontologie biomediche:
un approccio al popolamento dei database".
- Ferdinando Bervicato, "Ricombinazioni genomiche: un nuovo
approccio per il calcolo di Expected Reversal Distance attraverso i
modelli di Markov.", in collaborazione con Paola Festa
- Giovanni Cozzo, "Ricombinazioni genomiche: calcolo di Expected
Rearrangement Distance basato sui modelli di Markov nascosti.", in
collaborazione con Paola Festa
- Vincenzo Belcastro, "Metodi per l'identificazione delle reti
genetiche: un nuovo approccio Bayesiano alla Mutua Informazione.",
presso il TIGEM, dott. Diego di Bernardo
- Gianfranco Cautiero, "Ricombinazioni genomiche: un nuovo approccio
per il calcolo di Expected Reversal Distance.", in collaborazione con
Paola Festa
- Roberto Russo, "Information retrieval per applicazioni biomediche.", in
collaborazione col dott. Vincenzo Masucci del CRIAI.
- Antonio Gambardella, "Allineamento multiplo di biosequenze:
iterated local search.", in collaborazione con Paola Festa
- Gregory Casanova, "Allineamento multiplo di biosequenze: approccio
euristico multistart.", in collaborazione con Paola Festa
- Anita Alicante, "Confronto tra l'italiano e l'inglese dal punto di
vista dell'analisi sintattica.", in collaborazione con Alberto Lavelli
(ITC-irst)
- Corsuto Daniela, "Etichettatura di testi in parti del discorso:
nuovi approcci."
HomePage di Anna
Corazza
Last modified: Fri Dec 9 15:16:30 CET 2011