Project management of NTIS P1 Cybernetic Systems and Department of Cybernetics | WiKKY

Project

General

Profile

Overview

Systém pro trvalé uchování dokumentace a prezentaci historických pramenů z období totalitních režimů
System for permanent preservation of documentation and presentation of historical sources from the period of totalitarian regimes
Identifikátor projektu: DG16P02B048
Partneři: ÚFAL, ÚSTR
Trvání: 1.3.2016 - 31.12.2019

Hlavním cílem navrhovaného projektu je výzkum a vývoj softwarových nástrojů pro trvalé uchování a zpřístupnění historických pramenů získaných v rámci dokumentační činnosti Ústavu pro studium totalitních režimů (dále ÚSTR).
Cílem projektu je vytvořit nástroj pro integrovaný archiv nahrávek, dokumentů a fotografií přístupný online a prohledávatelný podle různých aspektů (konkrétní obsah nahrávek, jméno a ostatní životopisné údaje pamětníka, časové období, ke kterému se dokument vztahuje, apod.). Pro tyto účely použijeme především automatické rozpoznávání mluvené řeči, automatickou indexaci a vyhledávání v rozpoznaných nahrávkách a částečně také strojové rozpoznávání znaků (OCR) a navazující techniky zpracování přirozeného jazyka. Využijeme též zkušenosti získané při vývoji repozitářového softwaru určeného pro ukládání a zpřístupnění velkého množství různorodých jazykových dat.
V rámci projektu bude pro účely předvedení a ověření funkčnosti vyvinutých softwarových nástrojů zpracováno minimálně 1000 hodin záznamu audionahrávek rozhovorů a výpovědí, které vznikly v rámci dokumentační činnosti ÚSTR v rozmezí let 2008 až 2015 a 50 000 textových a obrazových dokumentů. Audionahrávky obsahují bilanční rozhovory s pamětníky totalitních režimů v Československu; ostatní dokumenty jsou kopie souvisejících listin, dokladů a fotografií z domácích archivů a dalších zdrojů. Vyvinuté nástroje nicméně budou použitelné i pro zpracování a zpřístupnění dalších nahrávek a dokumentů podobného typu.

Těžištěm projektu bude především:
-Vývoj systému pro komplexní zpracování materiálu ÚSTR zahrnující automatické či poloautomatické zpracování a třídění naskenovaných dokumentů, automatický přepis zvukových nahrávek a jejich následný převod do formy vhodné pro vyhledávání klíčových slov či frází a to jak ve slovní, tak i fonetické podobě. Další část výzkumu pak bude věnována detekci témat. Tento krok bude nutný k nalezení odpovídajících odkazů z daného dokumentu (nahrávky) na další související dokumenty jiné povahy (např. textové).
-Vývoj softwarového repozitáře pro bezpečné dlouhodobé uložení původních digitálních materiálů (nahrávek, dokumentů) i nově v projektu vytvořených dat z těchto původních materiálů odvozených.

Výstupy projektu:
hlavní - 2xR(SW), vedlejší - 9xD(článek v časopise, konf. 2017-2019)
ALIGN - 2017 - software pro podporu poloautomatického zarovnání nahrávek s existujícími přepisy pro účely efektivní přípravy dat určených pro trénování akustických a jazykových modelů.
HIDOAR - 2019 - software pro poloautomatické zpracování a zpřístupnění textových a zvukových nahrávek v integrovaném archivu pramenů.
Budoucí uživatelé - Post Bellum - portál Paměť národa