Task #3803
closedTask #3633: Etapa 01 - Příprava dat a datových struktur, testy existujících metod
OCR - jazykový model v Tesseractu
100%
Description
aktualizovat LM v Tesseractu, tak aby jsme z něj mohli dostat eventuálně: slovní/znakový přepis, lattice
Updated by Hrúz Marek about 10 years ago
- Assignee changed from Neduchal Petr to Soutner Daniel
Updated by Soutner Daniel almost 10 years ago
Před jazkyovým modelel bude třeba také asi natrénovat na font "psací stroj". Návod by mohl být zde: http://www.joyofdata.de/blog/a-guide-on-ocr-with-tesseract-3-03/
Updated by Soutner Daniel almost 10 years ago
Oficiální popis tréninku LM zde:
https://github.com/tesseract-ocr/tesseract/wiki/tesstrain.sh
Není mi z toho jasné jeslti je to i tzv. "cube" language model, který má být lepší. Dokumentace k němu asi není (?), info se dá najít na googlegroups tesseract-ocr.
Opředeno tajemstvím :)
Updated by Zajíc Zbyněk almost 10 years ago
- zatím lze získat z OCR jen 1Best hypotézu, ale zle získat fonémový lattice (slovní lattice asi nedostupný) - lze pak zpracovat vlasním LM
- zapojení vlastního LM nahráním trénovcacích dat
DS- doplnit data do Tesseractu a vyzkouší zpracovat lattice vlastními metodami
Updated by Zajíc Zbyněk about 9 years ago
z lattice vygenerovat slovní přepis (doplnit např. konfuzní tabulku, ...)
Updated by Zajíc Zbyněk over 8 years ago
- WER cca 45% (s LM z novin) https://docs.google.com/spreadsheets/d/1d3UJSlz3XRccygMNnTyxDNwLrrHfCox9Ywnu9LdxATQ/edit#gid=0
- získat lepší LM
- přidat info o pozici slova na stránce
Updated by Soutner Daniel about 8 years ago
Mřížky poslány JŠ, jsou tady: /data-kky/public/dsoutner/ocr-lattice
Updated by Soutner Daniel almost 8 years ago
- Assignee changed from Soutner Daniel to Neduchal Petr
Updated by Zajíc Zbyněk over 6 years ago
- Status changed from Assigned to Closed