Lai dators precīzi atpazītu tekstu, vispirms nepieciešams izveidot teksta pareiza attēlojuma paraugu – vismaz 10 000, cilvēka rokām izlabotas, nevainojamas rindiņas, kas drukātas fraktūrā (vecā druka). Katru rindiņu pārbauda divi rakstu pratēji.

Automātiskajai atpazīšanai tiek izmantota teksta atpazīšanas programmatūra Tesseract, kas darbojas, izmantojot LSTM (long short-term memory) neironu tīkla modeli. LSTM strādā precīzāk nekā agrīnie neironu tīkla modeļi un ir labi piemērots rakstības un runas atpazīšanai. LSTM pieder pie dziļās mācīšanās (deep learning) algoritmu saimes.

Tekstus iespējams labot vietnē frakturs.lnb.lv.

Kā piedalīties: apmeklējiet lapu frakturs.lnb.lv, reģistrējieties, izlasiet instrukciju un sāciet labot.

Reģistrēti lietotāji var sekot savai labošanas statistikai un sacensties ar citiem labotājiem.

Ja ir jautājumi, rakstiet uz dh@lnb.lv.