Kerkesinpä tännekkin taas piiiitkästä aikaa kirjoittamaan. Aika ei ole riittänyt, kuin satunnaisiin pikakäynteihin. Tosta OCR-tekstin tunnistuksesta, että paras ohjelma, johon olen tutustunut, on Readiris. Ohjelmaan on saatavissa Suomenkielen tuki ja se ymmärtää hämmästyttävän hyvin kirjaimia. Parhaimmillaan olen päässyt tulokseen, jossa A4 sivun korjaus on ollut pisteen korvaaminen pilkulla muun tekstin ollessa täysin virheetöntä. Radiris ohjelman sivut ovat osoitteessa:
http://www.irislink.com/c2-532/OCR-Software---Product-list.aspx
Jos asia joskus etenee siihen pisteeseen, että lupa saadaan ja mikäli joku omistaa lehtiä ja scannerin, mutta ei OCR-ohjelmaa, mutta haluaa kuitenkin projektiin osalliastua, voi jättää jollekkin toiselle OCR-tunnistuksen tehtäväksi. Readiriksella tunnistus voidaan tehdä 2 bittisestä mustavalkokuvasta. Eli scannaa jokaisen sivun mustavalkoisena ja värikuvana. Mitä suurempi kuva on, sitä varmemmin OCR-tunnistus tapahtuu. Värikuva tarvitaan siitä syystä, että lehdessä olevat kuvatkin saadaan mahdollisimman alkuperäisessä muodossa PDF-versioon.
Ohjelmalistauksia ei valitettavasti voi OCR-tunnistaa, vaan ne on laitettava PDF-versioon kuvina. Syy on se, että C64 sisältää ohjelmalistauksissa monia merkkejä, joita nykyfontit eivät sisällä.
http://www.irislink.com/c2-532/OCR-Software---Product-list.aspx
Jos asia joskus etenee siihen pisteeseen, että lupa saadaan ja mikäli joku omistaa lehtiä ja scannerin, mutta ei OCR-ohjelmaa, mutta haluaa kuitenkin projektiin osalliastua, voi jättää jollekkin toiselle OCR-tunnistuksen tehtäväksi. Readiriksella tunnistus voidaan tehdä 2 bittisestä mustavalkokuvasta. Eli scannaa jokaisen sivun mustavalkoisena ja värikuvana. Mitä suurempi kuva on, sitä varmemmin OCR-tunnistus tapahtuu. Värikuva tarvitaan siitä syystä, että lehdessä olevat kuvatkin saadaan mahdollisimman alkuperäisessä muodossa PDF-versioon.
Ohjelmalistauksia ei valitettavasti voi OCR-tunnistaa, vaan ne on laitettava PDF-versioon kuvina. Syy on se, että C64 sisältää ohjelmalistauksissa monia merkkejä, joita nykyfontit eivät sisällä.