Information retrieval
(ex Corso di Tecnologie del linguaggio naturale)
| Corso della specialistica che si può sostenere sia al 1o che
il 2o anno, anche se formalmente è del 2o. |
| Primo semestre, 6 crediti |
| Orario per l'aa 2011/12: Martedì
e giovedì, 11:00 - 13:00 in E3. |
| Docente: Anna
Corazza |
In evidenza
Martedì 24 gennaio a partire dalle 10:30 in E3 seconda
prova intercorso: per iscriversi mandare una mail al
docente. Giovedí 19 dalle 11 alle 13, in E3, ricevimento in
preparazione al compito.
Introduzione
Una delle caratteristiche più evidenti nel recente
sviluppo dell'informatica è la disponibilità di grandi moli
ditesti in linguaggio naturale. Un riferimento ovvio è il World Wide
Web, ma analogo effetto si ha anche nei sistemi informativi aziendali e perla
pubblicaamministrazione: praticamente tutti i documenti che inpassato venivano
conservati su carta sono ora su supporto elettronico, e possono essere
vantaggiosamente sfruttati a patto di averne i mezzi. A mero titolo di esempio,
si pensi alla possibilità di consultare le pratiche relative a casi in
archivio in studi legali, assicurazioni, ma anche banche e aziende di servizi.
Vista tuttavia la dimensione di questi archivi testuali, non
èpossibile pensare di accedervi senza adeguati strumenti informatici. Da
quidunque la necessità di sviluppare strumenti automatici
per l'information retrieval (ricerca dei documenti che soddisfano una
determinata esigenza), la knowledge discovery e data mining
(ricerca di eventi che presentano regolarità nei documenti da cui ci
aspettiamo un incremento nelle conoscenze disponibili).
Obiettivi
L'obiettivo del corso è quello di fornire un introduzione ai
concetti fondamentali e alle tecniche per il reperimento automatico di documenti
in forma digitale (sistemi di Information Retrieval). In particolare, il corso
introduce metodi e tecniche per la ricerca e la gestione basata su
contenuto di testi, nonché alcune applicazioni avanzate di questa
tecnologia come i motori di ricerca su Web, knowledge management mediante
categorizzazione e clustering automatici di documenti in forma digitale, e
estrazione di informazione.
Programma di massima
- Modello booleano. Indice invertito e sua costruzione. Query booleane.
Dizionario dei termini. Lista dei postings. Elaborazione del testo.
Varianti e query con stringhe di più parole. Dizionari e query
approssimate.
- Retrieval con punteggi. Pesatura dei termini a seconda delle zone
e identificazione dei pesi. Modello multinomiale e di Bernoulli di un
testo. tf-idf e modello a spazio vettoriale. Integrazione del tutto in
un sistema. Applicazione del clustering in un sistema di
IR. Euristiche per migliorare l'efficienza.
- La valutazione in un sistema di information retrieval. Corpora e
loro annotazione. Valutazione dell'affidabilità
dell'annotazione: indice kappa. Usabilità di un sistema di IR.
Relevance feedback e espansione delle query.
- Apprendimento automatico con supervizione:
classificazione. Approccio bayesiano e naive Bayes. Selezione delle
caratteristiche. Classificatori di Rocchio e k-nearest. Classificatori
lineari e non lineari. Support vector machines.
- Apprendimento automatico senza supervisione:
clustering. Valutazione. K-means. Expectation-maximization. Clustering
gerarchico.
- Mining di software repositories. Latent semantic indexing.
Testi di riferimento:
- Chris Manning, Prabhakar Raghavan and Hinrich Schütze,
Introduction to Information Retrieval, Cambridge University
Press. 2007.
- Roberto Basili and Alessandro Moschitti, Automatic Text
Categorization: from Information Retrieval to Support Vector
Learning. Aracne editrice, Rome, Italy.
- materiale fornito dal docente
Esame: scritto (domande e esercizi)+orale. Date da
concordare. Chi segue può sostituire la prova scritta con
due prove intercorso.
Esercitazioni e compiti
Per comodità degli studenti, inserisco qui i testi di alcune
prove passate di cui ho la versione elettronica. prima prova intercorso dell'aa
2008/09.
Le seguenti esercitazioni si riferiscono ad anni passati: il
programma può quindi essere diverso.
- Esercitazione01-bis
- Esercitazione01
- IResempio20061004
- primaProva2007
- primaProva2008
- primaProva2009
- prova1
- prova23-20070117
- prova2
- prova3-bis
- prova3
- provaCompleta
- prova-globale-072007
- secondaProva2010
- secondaProva
- terzaProvaRecupero
Argomenti svolti a lezione: aa 2011/12
- 1. Boolean retrieval
- 2. The term vocabulary and postings lists
- 3. Dictionaries and tolerant retrieval
- 6. Scoring, term weighting and the vector space model
- 8. Evaluation in information retrieval
- 9. Relevance feedback and query expansion
- 13. Text classification and Naive Bayes
- 14.Vector space classification, (escluso 14.6)
- 15. Support vector machines and machine learning on documents, e Presentazione
- 16. Flat clustering, tutto
- 17. Hierarchical clustering: tutto escluso il 17.5
HomePage di Anna
Corazza
Last modified: Fri Oct 28 08:24:33 CEST 2011