Илије Гарашанина 5, 11000 Београд 011/ 32 42 418 biblioteka@milutinbojic.org.rs

Објављен скуп података за исправку OCR грешака

У оквиру иницијативе "1000 књига за ВИ" коју смо покренули прошле године, објављен је први скуп подата за исправку грешака у процесу машинског ишчитавања текста (OCR). Овај део је веома важан у процесу дигитализације јер корисницима омогућава претрагу речи у дигиталним збиркама. Резултати добијени у овом процесу садрже и грешке па је овим скупом података дата могућност даљег усавршавања модела ВИ који могу да их исправе. Следећи корак, на коме се интензивно ради, укључује тестирање различитих ВИ архитектура и модела који могу да се адаптирају за овај задатак исправке. 

Захваљујемо колегама из Друштва за језичке ресурсе и технологије - ЈеРТех и посебно проф. др Ранки Станковић на уступљеном материјалу.