MediaMente: Off-line del 12 giugno 1998

Off-line del 12 giugno 1998

Scena didattica.
L'uso di programmi OCR per l'acquisizione di testi

di Gino Roncaglia

Questa è la Città del sole di Tommaso Campanella - il libro dal quale più avanti trarremo la nostra lettura. Supponiamo che l'insegnante sia interessata a fare lavorare la classe su questo libro.

Naturalmente, il libro a stampa basta da solo a fare moltissimo: lo si può leggere, che è la cosa fondamentale, lo si può discutere in classe, si possono preparare relazioni individuali o di gruppo, e così via. Ma come vedremo ci sono un certo numero di operazioni per le quali sarebbe prezioso avere a disposizione anche il testo dell'opera in formato elettronico.Come si fa a trasformare un testo a stampa in testo elettronico?

Le strade fondamentali sono due. La più immediata, ma in genere anche la più lunga, consiste nel trascrivere il testo usando un programma di videoscrittura, parola dopo parola. Forse, però, possiamo semplificare l'operazione proprio facendoci aiutare dal computer. Ecco allora la seconda possibilità: usare uno scanner per far 'vedere' al computer il testo, e usare un programma di riconoscimento ottico dei caratteri per farglielo leggere. Vediamo di capire meglio di cosa si tratta.

Lo scanner l'abbiamo già incontrato: è un dispositivo di input, e attraverso di esso il computer acquisisce delle immagini, 'traducendole' in formato digitale. E' possibile usarlo per acquisire anche il testo di una pagina scritta?

Come vedete, sì. Ma c'è un problema: lo scanner acquisisce solo l'immagine, non è in grado di 'leggerla'. Lo scanner, cioè, non fa alcuna differenza fra una pagina di testo scritto e, ad esempio, un quadro cubista. Come si fa allora a spiegare al computer che in questo caso l'immagine acquisita è un testo, in modo da poterlo ad esempio modificare usando il nostro programma di videoscrittura, cercare al suo interno singole parole, e così via?

Ci serve un programma capace di analizzare l'immagine acquisita, di identificare al suo interno le linee di testo, e di trasformarle in un 'vero' testo elettronico, manipolabile dal computer. Un programma di questo tipo si chiama OCR, una sigla che significa Optical Character Recognition, programma per il riconoscimento ottico dei caratteri. In pratica, fa con l'immagine della pagina acquisita attraverso lo scanner la stessa cosa che fa con la pagina reale chi la trascrive al computer: la 'decifra' lettera per lettera, parola per parola, e la dà in pasto alla macchina.

Come vedete, un OCR non è difficile da usare. Attenzione, però: per funzionare al meglio, deve essere informato in anticipo della lingua nella quale è scritto il testo su cui stiamo lavorando. In questo modo, nel riconoscere le parole potrà farsi aiutare da dizionari specifici, e il risultato sarà assai più affidabile.

Tenete anche conto che un OCR è in grado di lavorare solo su testi nei quali i singoli caratteri sono scritti in maniera uniforme: in pratica, solo su testi a stampa. La scrittura manoscritta è infatti in genere troppo 'variabile' perché i programmi esistenti siano in grado di interpretarla in maniera corretta - anche se si tratta di un settore nel quale i programmatori stanno lavorando molto, e nel quale possiamo aspettarci novità in futuro.

Infine, un testo elettronico ottenuto attraverso un OCR andrà sempre attentamente corretto prima di poterlo considerare ragionevolmente affidabile. L'operazione di correzione potrà però facilmente venir suddivisa all'interno della classe, organizzando coppie di studenti: uno legge il testo a stampa, l'altro controlla la correttezza di quello elettronico.

In genere, questo sistema è comunque più veloce del trascrivere il testo, e del resto la precisione degli OCR è in continua crescita. Al termine del lavoro, abbiamo il nostro testo elettronico. Cosa farne? Andiamo a vedere qualche possibilità.

Off-line del 12 giugno 1998

Scena didattica. L'uso di programmi OCR per l'acquisizione di testi

di Gino Roncaglia

Scena didattica.
L'uso di programmi OCR per l'acquisizione di testi