Information retrieval

(ex Corso di Tecnologie del linguaggio naturale)

Corso della specialistica che si può sostenere sia al 1o che il 2o anno, anche se formalmente è del 2o.
Primo semestre, 6 crediti
Orario per l'aa 2011/12: Martedì e giovedì, 11:00 - 13:00 in E3.
Docente: Anna Corazza

In evidenza

Martedì 24 gennaio a partire dalle 10:30 in E3 seconda prova intercorso: per iscriversi mandare una mail al docente. Giovedí 19 dalle 11 alle 13, in E3, ricevimento in preparazione al compito.

Introduzione

Una delle caratteristiche più evidenti nel recente sviluppo dell'informatica è la disponibilità di grandi moli ditesti in linguaggio naturale. Un riferimento ovvio è il World Wide Web, ma analogo effetto si ha anche nei sistemi informativi aziendali e perla pubblicaamministrazione: praticamente tutti i documenti che inpassato venivano conservati su carta sono ora su supporto elettronico, e possono essere vantaggiosamente sfruttati a patto di averne i mezzi. A mero titolo di esempio, si pensi alla possibilità di consultare le pratiche relative a casi in archivio in studi legali, assicurazioni, ma anche banche e aziende di servizi.

Vista tuttavia la dimensione di questi archivi testuali, non èpossibile pensare di accedervi senza adeguati strumenti informatici. Da quidunque la necessità di sviluppare strumenti automatici per l'information retrieval (ricerca dei documenti che soddisfano una determinata esigenza), la knowledge discovery e data mining (ricerca di eventi che presentano regolarità nei documenti da cui ci aspettiamo un incremento nelle conoscenze disponibili).

Obiettivi

L'obiettivo del corso è quello di fornire un introduzione ai concetti fondamentali e alle tecniche per il reperimento automatico di documenti in forma digitale (sistemi di Information Retrieval). In particolare, il corso introduce metodi e tecniche per la ricerca e la gestione basata su contenuto di testi, nonché alcune applicazioni avanzate di questa tecnologia come i motori di ricerca su Web, knowledge management mediante categorizzazione e clustering automatici di documenti in forma digitale, e estrazione di informazione.

Programma di massima

  1. Modello booleano. Indice invertito e sua costruzione. Query booleane. Dizionario dei termini. Lista dei postings. Elaborazione del testo. Varianti e query con stringhe di più parole. Dizionari e query approssimate.
  2. Retrieval con punteggi. Pesatura dei termini a seconda delle zone e identificazione dei pesi. Modello multinomiale e di Bernoulli di un testo. tf-idf e modello a spazio vettoriale. Integrazione del tutto in un sistema. Applicazione del clustering in un sistema di IR. Euristiche per migliorare l'efficienza.
  3. La valutazione in un sistema di information retrieval. Corpora e loro annotazione. Valutazione dell'affidabilità dell'annotazione: indice kappa. Usabilità di un sistema di IR. Relevance feedback e espansione delle query.
  4. Apprendimento automatico con supervizione: classificazione. Approccio bayesiano e naive Bayes. Selezione delle caratteristiche. Classificatori di Rocchio e k-nearest. Classificatori lineari e non lineari. Support vector machines.
  5. Apprendimento automatico senza supervisione: clustering. Valutazione. K-means. Expectation-maximization. Clustering gerarchico.
  6. Mining di software repositories. Latent semantic indexing.
  7. Testi di riferimento:

    Esame: scritto (domande e esercizi)+orale. Date da concordare. Chi segue può sostituire la prova scritta con due prove intercorso.


    Esercitazioni e compiti

    Per comodità degli studenti, inserisco qui i testi di alcune prove passate di cui ho la versione elettronica. prima prova intercorso dell'aa 2008/09.

    Le seguenti esercitazioni si riferiscono ad anni passati: il programma può quindi essere diverso.

    1. Esercitazione01-bis
    2. Esercitazione01
    3. IResempio20061004
    4. primaProva2007
    5. primaProva2008
    6. primaProva2009
    7. prova1
    8. prova23-20070117
    9. prova2
    10. prova3-bis
    11. prova3
    12. provaCompleta
    13. prova-globale-072007
    14. secondaProva2010
    15. secondaProva
    16. terzaProvaRecupero

    Argomenti svolti a lezione: aa 2011/12

    HomePage di Anna Corazza

    Last modified: Fri Oct 28 08:24:33 CEST 2011