Gestione documentale, inizia una nuova era
Un software in grado di “leggere” un documento elettronico in venti lingue differenti, classificarlo in base all’argomento e inviarlo tramite messaggio di posta elettronica alla tipologia d’utente interessato, o a un sistema per la gestione on line dei documenti, il tutto in maniera automatica. Lo hanno ideato i ricercatori della Xerox: il sistema e’ stato sviluppato e messo a punto nello stabilimento che si occupa di ricerca a Grenoble.
La Xerox sta ormai raggiungendo evoluti livelli di studio nel campo della gestione documentale grazie anche all’attivita’ incessante dello stabilito di ricerca di Grenoble. Il software elaborato dalla grossa societa’ rappresenta un’interessante applicazione di intelligenza artificiale nello specifico settore dove i campi di sviluppo piu’ recenti (data mining, document understanding, redazione assistita), sono accomunati da una nuova metodologia di trattamento delle informazioni: il documento viene descritto nel data base applicando un modello piu’ ricco di quelli delle banche dati tradizionali, ma senza arrivare all’onerosa operazione di formalizzare tutto il contenuto.
Nelle nuove basi di dati strutturate gli elementi rilevanti vengono esplicitati secondo criteri dipendenti dagli scopi (informazione, diagnosi, classificazione, funzione normativa, ecc.), sino ai sistemi di redazione assistita in cui il modello precede il documento, anzi costituisce lo schema vuoto da cui verra’ prodotto il documento digitale.
Quando si parla di struttura collegata ad un documento si distinguono due accezioni: 1) la struttura retorica, cioe’ gli aspetti stilistici convenzionalmente legati ad una classe di documenti, e che vengono seguiti nella redazione di nuovi documenti, ad esempio sono elementi strutturali di una sentenza: il numero, l’autorita’, la data, il nome delle parti, i componenti del collegio giudicante, ecc.; 2) la struttura logica, che e’ costituita dalla rappresentazione simbolica degli elementi di contenuto: si basa sulla funzione comunicativa (o illocutiva) che il documento, o parte di esso intende raggiungere, ad esempio una citazione, una notifica.
L’ esplicitazione della struttura logica di un documento rappresenta una novita’ nel settore dell’ information retrieval, e vuole stabilire un legame fra le metodologie tradizionali di reperimento e le metodologie basate su modelli concettuali: come si e’ detto la struttura illocutiva o logica costituisce un modello di descrizione del documento piu’ informativo rispetto alla descrizione basata sul modello retorico, ma, al tempo stesso puo’ essere mantenuta ad un livello astratto (valido cioe’ per classi di documenti) indipendentemente dai singoli contenuti.
L’abbinamento e l’interazione fra modello retorico e modello illocutivo sono adottati in vari settori applicativi: da programmi che riconoscono e classificano documenti, da programmi che analizzano e confrontano documenti strutturati, da programmi che strutturano il documento nel momento della redazione.
Il document understanding e’ una tecnica di riconoscimento largamente utilizzata per la creazione in modo automatico o semi automatico di archivi, banche dati, ed, in generale, biblioteche digitali.
In un futuro in cui la versione elettronica dei documenti si affianchera’ o sostituira’ sempre piu’ la versione cartacea, la biblioteca digitale rappresenta la sintesi di processi di trattamento informatico dei documenti, dalla loro acquisizione sino al reperimento.
I documenti vanno raccolti, siano essi prodotti direttamente in formato elettronico, o trasformati attraverso la scannerizzazione in forma digitale; quindi vanno organizzati e resi accessibili. L’aspetto piu’ delicato e complesso riguarda l’organizzazione dei documenti, in quanto da esso dipende l’efficienza nell’accesso agli stessi documenti e la precisione nel reperimento delle informazioni.
Per organizzare una raccolta di documenti si operano vari passaggi: a) analisi del documento nella sua struttura fisica e testuale, b) analisi della sottostante struttura logica (cioe’ dei contenuti), c) classificazione del documento.
Tutti i processi possono essere condotti in modo manuale, semiautomatico, o automatico. Ovviamente, maggiore e’ l’impiego delle tecniche di Intelligenza Artificiale, maggiore e’ il numero di passaggi automatici.
Come primo passo, quindi, viene analizzata la struttura testuale di superficie, individuate le componenti del testo e definito un albero gerarchico: tipicamente, un documento e’ composto di pagine, ogni pagina di righe, ogni riga di parole. Le componenti testuali sono collocate nella struttura fisica, o layout del documento, ad esempio, una pagina puo’ essere divisa in colonne, ed ogni colonna e’ formata da una serie di linee, che corrispondono alle righe del testo.
Perche’ un programma sia in grado di riconoscere un documento, e’ necessario che possa individuare prima le componenti fisiche, poi metterle in relazione alle componenti testuali.
Dall’analisi della struttura di superficie si passa all’analisi della struttura logica, che prende in considerazione i contenuti del documento; anche qui si individuano tutte le caratteristiche rilevanti e distintive di una classe di documenti.
Le tecniche di apprendimento automatico operano anche a questo secondo livello in maniera induttiva: dalla descrizione di documenti campione (training documents) viene generalizzata una serie di modelli, attraverso passi progressivi: si individuano caratteristiche comuni a classi di documenti, si eliminano differenze irrilevanti fra documenti della stessa classe, normalizzando, cioe’ stabilendo un modello normale valido per tutta la classe; viceversa si esplicitano elementi distintivi fra classi, definendo classi nuove o sottoclassi.
I modelli ricavati esprimono la struttura logica distintiva di una classe, cioe’ quegli elementi informativi che non appartengono agli aspetti testuali, ma agli scopi comunicativi che il documento deve raggiungere: l’articolo di una rivista scientifica sara’ composto di titolo, autore, sommario, testo, note a pie’ pagina, ecc.; una lettera e’ composta da un mittente, un destinatario, un’intestazione, la data, il testo, la firma; la sottoclasse lettere commerciali avra’ alcuni elementi vincolanti in piu’, ad es. l’oggetto, il riferimento al numero di protocollo, ecc…..
Confrontando le due strutture, quella testuale e quella logica, il programma e’ in grado di assegnare un’etichetta ad ogni segmento di testo che avra’ isolato; quindi confronta l’insieme di elementi etichettati con i modelli ed assegna il documento ad una classe, vale a dire riconosce se e’ una lettera, un articolo, una sentenza, ecc. (classificazione automatica).
A questo livello il documento non solo viene classificato ma e’ gia’ accessibile ai fini dell’information retrieval. Tutti i segmenti riconosciuti ed etichettati costituiranno altrettanti canali di ricerca (data, nomi degli autori, luogo, titolo, ecc.).
Grazie all’esplicitazione di cio’ che fa parte della struttura del documento (informazioni sul documento), sara’ possibile anche specializzare la ricerca dei contenuti (informazioni nel documento).
In sintesi, quindi, il programma dispone di una serie di modelli di documento. Il modello di documento e’ composto dalla struttura logica, dalla struttura di layout e testuale, e dalle corrispondenze fra le due. Confrontando il documento nuovo con i modelli, il sistema individua il modello piu’ probabile, quindi prosegue confrontando le componenti del modello (o attributi) con i segmenti di testo.
In tal modo e’ possibile ottenere una classificazione immediata del documento, presupposto questo indispensabile per una gestione piu’ utile e razionale.
Scritto da
Commenta!