Off-line del 12 giugno 1998
Scena didattica.
L'uso di programmi OCR per l'acquisizione di testi
di Gino Roncaglia
Questa è la Città del sole di Tommaso Campanella - il libro dal quale
più avanti trarremo la nostra lettura. Supponiamo che l'insegnante sia interessata a fare
lavorare la classe su questo libro.
Naturalmente, il libro a stampa basta da solo a fare moltissimo: lo si può leggere,
che è la cosa fondamentale, lo si può discutere in classe, si possono preparare
relazioni individuali o di gruppo, e così via. Ma come vedremo ci sono un certo numero di
operazioni per le quali sarebbe prezioso avere a disposizione anche il testo dell'opera in
formato elettronico.Come si fa a trasformare un testo a stampa in testo elettronico?
Le strade fondamentali sono due. La più immediata, ma in genere anche la più lunga,
consiste nel trascrivere il testo usando un programma di videoscrittura, parola dopo
parola. Forse, però, possiamo semplificare l'operazione proprio facendoci aiutare dal
computer. Ecco allora la seconda possibilità: usare uno scanner per far 'vedere' al
computer il testo, e usare un programma di riconoscimento ottico dei caratteri per
farglielo leggere. Vediamo di capire meglio di cosa si tratta.
Lo scanner l'abbiamo già incontrato: è un dispositivo di input, e attraverso di esso
il computer acquisisce delle immagini, 'traducendole' in formato digitale. E' possibile
usarlo per acquisire anche il testo di una pagina scritta?
Come
vedete, sì. Ma c'è un problema: lo scanner acquisisce solo l'immagine, non è in grado
di 'leggerla'. Lo scanner, cioè, non fa alcuna differenza fra una pagina di testo scritto
e, ad esempio, un quadro cubista. Come si fa allora a spiegare al computer che in questo
caso l'immagine acquisita è un testo, in modo da poterlo ad esempio modificare usando il
nostro programma di videoscrittura, cercare al suo interno singole parole, e così via?
Ci serve un programma capace di analizzare l'immagine acquisita, di identificare al suo
interno le linee di testo, e di trasformarle in un 'vero' testo elettronico, manipolabile
dal computer. Un programma di questo tipo si chiama OCR, una sigla che significa Optical
Character Recognition, programma per il riconoscimento ottico dei caratteri. In pratica,
fa con l'immagine della pagina acquisita attraverso lo scanner la stessa cosa che fa con
la pagina reale chi la trascrive al computer: la 'decifra' lettera per lettera, parola per
parola, e la dà in pasto alla macchina.
Come vedete, un OCR non è difficile da usare. Attenzione, però: per funzionare al
meglio, deve essere informato in anticipo della lingua nella quale è scritto il testo su
cui stiamo lavorando. In questo modo, nel riconoscere le parole potrà farsi aiutare da
dizionari specifici, e il risultato sarà assai più affidabile.
Tenete anche conto che un OCR è in grado di lavorare
solo su testi nei quali i singoli caratteri sono scritti in maniera uniforme: in pratica,
solo su testi a stampa. La scrittura manoscritta è infatti in genere troppo 'variabile'
perché i programmi esistenti siano in grado di interpretarla in maniera corretta - anche
se si tratta di un settore nel quale i programmatori stanno lavorando molto, e nel quale
possiamo aspettarci novità in futuro.
Infine, un testo elettronico ottenuto attraverso un OCR andrà sempre attentamente
corretto prima di poterlo considerare ragionevolmente affidabile. L'operazione di
correzione potrà però facilmente venir suddivisa all'interno della classe, organizzando
coppie di studenti: uno legge il testo a stampa, l'altro controlla la correttezza di
quello elettronico. |
|