24 giugno 2010

Diario di tesi - macchine infernali/2

Testi capricciosi...
Devo ringraziare un piccolo genio del computer che è miracolosamente riuscito a recuperare il mio archivio bibliografico e a trasformarlo in un file leggibile dal programma che l'aveva creato, ma, Murphy docet, risolto un problema se ne presenta un altro.
Ieri mi sono smazzata oltre venti volumi di storia della moda e conservazione dei tessili, alla ricerca di materiale utile alla mia tesi: se avessi preso appunti da brava amanuense, probabilmente ora non sarei nemmeno a metà lavoro. Ringrazio l'O.F. che per una volta si è rivelato utile, prestandomi la sua macchina fotografica digitale compatta: la mia Canon non è quel che si dice maneggevole e leggera.
Restando nei limiti consentiti dalla legge, ho comunque messo da parte più di 200 foto di testi vari, che devo catalogare e per lo meno riassumere onde trovare in fretta ciò che mi serve - e questo è il meno. Il problema maggiore si presenta al momento di trascrivere le foto in un documento di testo: mi direte, esistono i programmi OCR (riconoscimento ottico della scrittura)!
E io vi rispondo: certo, ma ricordate che viaggio su un sistema operativo libero, il che significa che non tutto quello che si trova in un pc normale funziona sul mio.
Esistono gli OCR open-source!
Certo, peccato non siano minimamente efficienti rispetto agli standard cui mi aveva abituata Winzozz: l'unico che sono riuscita a far girare è Tesseract, che però richiede immagini in bianco e nero (non scala di grigi), e non riconosce le colonne. Per farlo funzionare dovrei aprire la foto, regolare il bianco (non so se per colpa mia o dell'O.F. era impostato il filtro per luce artificiale e tute le foto hanno una sfumatura azzurra), regolare il contrasto, trasformare l'immagine in b/n, salvarne due copie, una per colonna, in .tif e processarle con Tesseract (che funziona solo da riga di comando, niente interfaccia grafica). La qualità del file di testo è scarsa, nonostante l'immagine di partenza sia nitida.
Di questo passo mi laureerò alle soglie della pensione.
Siccome sono una testa dura e di andare a casa per approfittare dell'OCR di winzozz non se ne parla, ho cercato un po' sull'ottavo nano e ho trovato un sito interessante: free-ocr.com
Non è necessario registrarsi, né lasciare la propria mail: si carica l'immagine e dopo qualche minuto ci si trova servito il testo. Riconosce le colonne e ha una precisione che fa invidia ai programmi più noti. Richiede un minimo lavoro sull'immagine, ma meno passaggi rispetto a Tesseract. Forse riuscirò a rientrare nei tempi previsti.

...e le note a piè di pagina.
Il mio relatore, persona veramente adorabile (no, spero non capiti mai in questo blog!), mi ha inviato le note redazionali per formattare correttamente la tesi: gran parte dei consigli non sono nulla di nuovo, un po' perché una tesi l'ho già scritta, un po' perché lavorando su Wikipedia qualche regola di scrittura, soprattutto per note e bibliografia, la conosco già.
Le norme della mia facoltà prevedono due modi di inserire le note: o tra parentesi nel corpo del testo, o le classiche a pié di pagina.
Cinque anni fa, il mio relatore mi aveva caldamente sconsigliato il piè di pagina, dato che allora Wo*rd faceva il cavolo che voleva e bastava inserire un'immagine per trovarsi l'impaginazione sballata, con note a piè di pagina richiamate nella facciata successiva.
Memore di questa esperienza e abituata a lavorare con il software Mediawiki, che prevede l'inserimento della nota nel corpo del testo, ho proposto al professore di lasciare le note tra parentesi, per spostarle in un secondo momento a piè di pagina, quando il testo avrà una forma più stabile.
Alla sua risposta mi sono venuti i sudori freddi: preferisce le note a fine pagina da subito, "si abitui"- scrive - " a questo sistema che ha tutti i vantaggi di wo*rd".
Qui si usa fasciarsi la testa prima di essersela rotta, e fare di ogni mosca un elefante: mi sono trovata a iperventilare, con la testa che sembrava la sala di un cinema dove si proietta un film catastrofico.
Apro una pagina di Wiki con molte note (Tintoretto, l'ho scritta io, hehe), copio il testo in Openoffice.org versione 3.2 e provo a inserire le prime note: tutto a posto, semplice e tranquillo.
Così mi complico la vita: copincollo un altro pezzo di voce, inserisco altre note e riempio così la prima facciata. Ripeto il copincolla per verificare se le note subiscano cambiamenti e...magia! Ogni nota resta "appiccicata" al suo richiamo nel testo, per cui cambia facciata se questo si sposta di una pagina.
Prodigi della scienza e della tecnica! :D
Ora mi resta il problema dei numeri di pagina, ma è un'altra storia e si dovrà raccontare un'altra volta.

Oggi la Pizia è stata più oscura del solito: demenza da tesi o trip da alloro?

3 responsi:

aerie ha detto...

Quando si prepara la tesi ogni contrattempo è una tragedia ^_^
Prova a rilassarti.

Demart ha detto...

Per me è colpa degli spinaci surgelati... :P:P:P:P:P

Demart ha detto...

Mai provato mendeley? https://www.mendeley.com

Io mo lo sto scaricando, sembra una roba fatta bene, un buon database.

Posta un commento