UNIVERSITÀ DEGLI STUDI DI PARMA
FACOLTÀ DI INGEGNERIA
Corso di Diploma in Ingegneria Informatica
Anno accademico 2003 / 2004
L’AUTOMAZIONE DEL CICLO PASSIVO
MEDIANTE IL RICONOSCIMENTO
OTTICO DEI DOCUMENTI
Tesi di Diploma di Domenico Barile
Relatore: Dott. Ing. Monica Mordonini
Correlatore: Gianfranco Rimessi
IL CICLO PASSIVO
È il ciclo di gestione delle fatture dei fornitori. Qualunque sia la
dimensione dell’azienda esiste la gestione contabile del ciclo passivo.
In aziende di grandi dimensioni vi sono apposite strutture e risorse
umane dedicate specificatamente alla gestione del ciclo passivo, nelle
aziende più piccole tale fase è presa in carico da chi si occupa della
contabilità.
FASE
%
VALORE AGGIUNTO
apertura della posta, protocollazione,
ìnserimento dati prima nota
45 %
BASSO
controllo ed autorizzazione
30 %
MEDIO
relazioni con i fornitori, controllo di
qualità del processo, analisi dei
rischi
25 %
ALTO
Fonte: “La gestione del ciclo passivo” - The Gartner Group (1994)
LUCYstar
dal ricevimento delle fatture
alla transazione contabile
OBIETTIVI DELLA TESI
Gli obiettivi per questa tesi erano:
• Creazione di un modulo di riconoscimento ottico
basato sul motore FREE FORM
• Integrazione del modulo con LUCYstar
• Creazione di una base di regole utilizzabile per il
riconoscimento delle fatture passive
• Consolidamento del motore FREE FORM di
riconoscimento ottico dei documenti
RICONOSCIMENTO DEI DATI
MEDIANTE TEMPLATE
VANTAGGI
• schematizza il documento da interpretare
• il riconoscimento avviene solamente per le zone indicate
SVANTAGGI
• debbono essere creati manualmente, uno per uno, per tutti i
fornitori
• non sono adatti a documenti con layout dinamico ovvero con il
posizionamento dei campi che può cambiare da un’istanza
all’altra
FREE FORM DATA CAPTURE
estrazione di dati da documenti strutturati o semistrutturati
In GREENSOFT s.a.s. la tecnologia FREE FORM ha avuto origine nel
1999 ed oggi è una delle più avanzate in questo ambito, forse l’unica
dotata di logiche di apprendimento dinamico.
L’obiettivo è definire chi è cosa nel dominio dei documenti da trattare.
Tale dominio è riconducibile ad una o più tipologie, popolate da un
sottoinsieme delle informazioni definibili a priori.
L’approccio FREE FORM estende i limiti del tradizionale approccio a
TEMPLATE quando i modelli sono numerosi e/o dinamici.
LE REGOLE
Il FREE FORM si basa su un insieme di regole che rappresentano i
campi da valorizzare con i dati presenti nei documenti e contengono
le procedure per la validazione, normalizzazione ed esportazione.
Le regole prevedono 3 livelli:
• il primo è la parte dichiarativa per i campi da valorizzare
• il secondo comprende tutte le regole che implementano i criteri di
validazione dei dati
• il terzo è stato previsto per le eventuali specializzazioni per
singolo fornitore o documento per i casi che non si riescono a
ricondurre alle regole dei livelli precedenti
MODALITÀ OPERATIVE
Il FREE FORM utilizza tecniche euristiche che consentono di
determinare i valori dei campi con un livello di confidenza espresso
attraverso un punteggio che va da 0 (ipotesi scartata) a 100 (ipotesi
con probabilità pressoché certa di validità).
Tali tecniche creano una lista dei possibili valori attribuibili al campo,
ordinati secondo il punteggio ottenuto.
La lista garantisce la possibilità di correggere eventuali errori o
scambi effettuati dal sistema garantendo una fase di apprendimento.
<DATADOC VALUE="20040406" CHECKED="NO">
<MAPPING BESTMAP="0">
MAP 66 100 96 100 0 100 0 1
MAP 46
80 96
</MAPPING>
</DATADOC>
17 "06/04/2004" 2 15 "Data" 16 "Documento"
0 0 100 0 1 117 "06/04/2004" 1 113 "Data“
MODALITÀ OPERATIVE
Il sistema:
•
attribuisce a ciascuna stringa del testo una tipologia di dato
•
tenta di assegnare a ciascuno dei campi un valore, realizzando
la lista delle possibili ipotesi
•
sceglie le ipotesi più probabili globalmente ovvero
considerando tutti i campi e massimizzando il punteggio
globale tra le ipotesi assegnate ai campi
•
esegue gli script delle regole di validazione delle ipotesi e di
controllo della quadratura del documento
MODALITÀ OPERATIVE
Il risultato finale è un valore di confidenza globale, a livello di
documento, che tiene conto sia delle valorizzazioni dei campi che
dell’affidabilità delle attribuzioni fornite dell’OCR.
Si può decidere di sottoporre a validazione manuale anche documenti
che “quadrano” per quel che riguardano le regole ma che potrebbero
avere degli assegnamenti “sospetti” per la lettura OCR.
I “CARDINI” DEL PROGETTO
I concetti essenziali che hanno basato la realizzazione del modulo di
riconoscimento ottico basato sul FREE FORM sono:
• a ciascun fornitore può essere attribuita una tipologia che
caratterizza il documento che ci fornisce: indica i dati presenti nel
documento, il loro tipo, il modo con cui vanno verificati e caricati
nei registri contabili
• il riconoscimento del fornitore è fondamentale per ricavare la
tipologia a cui appartiene
• la validazione da parte dell’utente è fonte di autoapprendimento
per il sistema (retroazione del sistema)
LE FASI DEL RICONOSCIMENTO DEL DOCUMENTO
Le fasi eseguite su ciascun documento sono:
• OCR (Optical Character Recognition)
• caratterizzazione delle stringhe di testo
• mappatura dei campi
• riconoscimento del fornitore
• applicazione delle regole di terzo e secondo livello
• validazione
• esportazione dei risultati
LUCYeuristick & LUCYvalidation
La creazione del modulo di riconoscimento ottico mediante il FREE
FORM ha dovuto rispettare le modalità operative per non variare il
flusso dei documenti: riconoscimento automatico e controllo
manuale da parte degli operatori.
L’unico eseguibile opera in maniera automatica e silente durante il
riconoscimento dei documenti che compongono le singole sessioni
(LUCYeuristick) e fornisce l’interfaccia di validazione agli operatori
del controllo di qualità (LUCYvalidation).
LUCYstar: i nuovi moduli
L’EVOLUZIONE DEL SISTEMA
• La specifiche di integrazione del motore FREE FORM in un modulo
di LUCYstar vennero definite nel Gennaio 2003.
• Il primo passo è stato quello di creare un modulo il più possibile
simile a LUCYstar per non disorientare gli utilizzatori.
• Nel Giugno 2003 è stata definita la prima versione dell'interfaccia di
validazione manuale.
• All'inizio di Dicembre 2003 siamo giunti alle prime installazioni
presso i clienti (BASF e POSTE ITALIANE) seppur su sistemi di test
operanti su copia integrale del database di contabilità.
L’EVOLUZIONE DEL SISTEMA
• Con l'inizio del 2004 le installazioni sono diventate operative sul
sistema di produzione sia per BASF che per POSTE ITALIANE.
L’installazione prevede la presenza di entrambi i moduli di
riconoscimento (vecchia e nuova versione).
• Nell’estate 2004 è stata completata l’installazione presso ENI.
• La fase di sviluppo dei moduli è progredita parallelamente a quella
di creazione e consolidamento delle regole, e di potenziamento del
motore FREE FORM.
I RISULTATI
FASE
APPROCCIO A
TEMPLATE
(vecchio modulo)
APPROCCIO
FREE FORM
(nuovo modulo)
Riconoscimento fornitore
80 %
più del 95 %
Documenti interpretati
correttamente
20 %
più del 50 %
In questo momento LUCYstar con il modulo di riconoscimento ottico
basato sul motore FREE FORM è operativo presso POSTE ITALIANE,
BASF ed ENI ed è in fase di installazione presso AGUSTA.
Le tipologie di documento supportate sono quella Standard, Agente,
Libero Professionista e Fornitore estero.
Scarica

Presentazione