Project management of NTIS P1 Cybernetic Systems and Department of Cybernetics | WiKKY

Project

General

Profile

Overview

Zpřístupnění dotazů jazykové poradny v lingvisticky strukturované databázi
Access to a Lingustically Structured Database of Enquiries from the Language Consulting Centre
Identifikátor projektu: DG16P02B009
Trvání: 1.3.2016 - 31.12.2019

Výstupy projektu:
hlavní - 2xR(SW), vedlejší - 2xJ(článek v odb. časopise), 14xD(článek v časopise, konf. 2017-2019)
LSSDD - lingvisticky strukturovaná softwarová databáze pro zaznamenávání a zveřejňování dotazů jazykové poradny ÚJČ
SADA - systém pro poloautomatickou analýzu dat pro usnadnění předzpracování dat pro LSSDD
Budoucí uživatelé: LSSDD - FF MUNI, PF MUNI, PF TUL, JÚLŠ SAV a SADA - MFF UK

Popis
Po stránce společenského přínosu je hlavním cílem projektu zpřístupnění jedinečného
jazykového materiálu z dotazů položených jazykové poradně Ústavu pro jazyk český AV
ČR, v. v. i., nejširší veřejnosti ve zcela nové, uživatelsky přívětivé softwarové databázi
jazykové problematiky řešené v jazykové poradně. Nejrůznější uživatelské vrstvy tím
získají přístup k jazykovému materiálu, který zpravidla nelze nalézt v žádném jiném zdroji
poučení o jazyce, a pokud ano, nebývá o něm v takovém zdroji často pojednáno z
perspektiv, které tazatel očekává, tj. tazateli se může dostat obecného poučení, avšak
aplikace na jeho konkrétní případ může být obtížná, může být vyložen jen dílčí aspekt
problematiky, tazatel potřebuje ujištění o správném chápání kodifikačního doporučení apod.
Kromě tohoto praktického cíle – poučit o možnostech řešení konkrétního obtížného
jazykového problému – bude však mít vytvoření databáze pro české národní jazykové
společenství i pro zahraniční zájemce o češtinu daleko hlubší smysl. Databáze, jež by měla
vzejít z tohoto projektu, není navrhována jako nástroj ke zveřejnění uzavřeného okruhu
dotazů bez dalších perspektiv, nýbrž hlavně jako otevřený a flexibilní nástroj k trvalému
doplňování a rozšiřování, a proto bude sloužit jako jakási kolektivní historická paměť
jednak tvorby české normativní mluvnice a pravopisných pravidel, jednak jako co možná
nejspolehlivější vědecky zpracovaný záznam o vývoji českého národního jazyka – vývoji
nahlíženém nikoli z perspektivy tvůrců jazykových příruček, ale samotných uživatelů
jazyka.
Po technické stránce je hlavním cílem projektu tvorba specifického databázového softwaru
a webového rozhraní pro vytvoření lingvisticky strukturované softwarové databáze dotazů
(LSSDD) položených jazykové poradně Ústavu pro jazyk český AV ČR; dále zdokonalení
softwaru pro převod mluvené řeči na psaný text tak, aby co nejlépe vyhovoval potřebám
přepisu telefonických hovorů v jazykové poradně coby podkladů pro databázové záznamy o
jazykové problematice řešené v konkrétním telefonickém rozhovoru tazatele a pracovníka
jazykové poradny. Tyto telefonické hovory se předpokládají jako primární zdroj dat pro
LSSDD.
Vytvoření LSSDD sleduje tyto společenské a lingvistické cíle:
1) Zachytit a zpřístupnit veřejnosti zcela nové jazykové jevy bezprostředně po jejich vzniku
a umožnit sledování průběhu existence daného jazykového prostředku v češtině. Dotazový
materiál dobře odráží nástup, průběh existence, aktuálnost, popř. i zánik jazykových jevů.
Např. první záznam o neživotně pojímaných počítačových červech (počítačoví červi, nebo
počítačové červy?) se v dotazech poprvé objevuje v roce 1998, od té doby zaznamenáváme
po určitou dobu relativně stabilní množství dotazů na týž typ a následný pokles; dotazy na
pravopis slova tsunami/cunami přicházejí zprudka a ve velkém množství v závěru roku
2004 jako důsledek událostí ve světě a ustávají v průběhu roku následujícího. Strukturovaná
55
archivace dotazů má tedy zásadní význam v dlouhodobé perspektivě. Kromě korpusů, jež
však nejsou ze své podstaty zaměřeny na klasifikaci a popis jednotlivých jazykových jevů,
česká lingvistika nemá k dispozici jiný nástroj, který by umožňoval s obdobnou (tedy
alespoň přibližnou) spolehlivostí určit nástup a průběh existence některých jazykových
jevů; přitom právě nové, inovační a (dosud) nepopsané jevy bývají častým předmětem
dotazů, protože se ještě nedostaly do jazykových příruček, které veřejnost běžně užívá
(slovníky, Pravidla českého pravopisu). Tyto životní cykly jazykových jevů bude pomocí
LSSDD možné snadno sledovat, protože se počítá s opatřováním databázových záznamů
přesnými daty zachycení. Sledování nástupu a průběhu existence jazykových jevů je
cenným záznamem dokumentujícím vývojové tendence současné i budoucí češtiny.
2) Umožnit uživatelům češtiny praktickou orientaci v tom, které jazykové jevy jsou
kodifikované a které nikoli, jak aktuální a vyčerpávající je kodifikační popis a v čem jsou
případné nedostatky kodifikačního popisu vyváženy doporučeními jazykové poradny. Tyto
informace jsou velmi žádané nejen žáky, učiteli, jazykovými redaktory a korektory, ale
často také samotnými lingvisty. Kromě toho, že jde o žádaný typ služby veřejnosti, bude mít
LSSDD v tomto ohledu zásadní význam jako systematická a systematizovaná tvorba
podkladů pro kodifikační činnost či obecněji pro jazykovou deskripci. Záznamy o stavu
kodifikace je z výše uvedených důvodů třeba (vůbec poprvé v historii české kodifikace)
důsledně formalizovat, systematizovat a strukturovat. LSSDD bude pro tento konkrétní účel
navržena tak, aby umožňovala zachytit následující okruh základních údajů.
U kodifikovaných, resp. popsaných jevů:
a) ve které kodifikační příručce je jev zachycen, tzn. jakou kodifikační váhu má
doporučované řešení (jinak posuzujeme řešení zachycené v Pravidlech českého pravopisu,
jinak řešení v popularizačních pracích);
b) rozpory v kodifikaci, tj. rozdílná řešení v různých příručkách, např. Indián/indián –
rozdílně řešeno v Pravidlech českého pravopisu a v některých vydáních Slovníku spisovné
češtiny pro školu a veřejnost;
c) řešení či doporučení, která se v praxi přežila či se zhusta nedodržují, např. skloňování
(ten) datum – datumu atd. užívané v běžné praxi a odporující kodifikovanému (to) datum –
data atd.;
d) nedostatečný popis jevu v příručkách, např. skloňování složených číslovkových výrazů.
U jevů nekodifikovaných, resp. nepopsaných:
Poradenská činnost vytváří soubor doporučení, která respektují jazykové zákonitosti i
potřeby uživatelů, a proto mají potenciál stát se racionální a přijímanou součástí budoucích
kodifikačních příruček.
3) Zpřístupnit veřejnosti co nejširší okruh problematických jevů příslušných typů
(„zexplicitnit kodifikaci“). Mezi časté dotazy patří např. psaní velkých písmen v
nejrůznějších typech názvů. Obecná pravidla pro řešení lze vyhledat v základních
příručkách, chybí však pokud možno úplné výčty, často žádané: „Nemáte nějaký seznam
56
(problematických) názvů ulic/hradů a zámků/institucí/dokumentů apod.? A není někde na
webu?“ LSSDD by tento problém v relativně krátké době pomohla účinně řešit, protože se
bude postupně plnit příslušnými konkrétními výrazy i s potřebnými výklady u každého z
nich.
4) Zajištění jednotnosti v poradenské činnosti jakožto službě veřejnosti. Jednotnost v
odpovědích se při současném vytížení poradny sice daří udržovat, avšak jen se značným
úsilím a s rizikem pochybení úměrným objemu zpracovávaného materiálu. Je třeba vytvořit
nástroj zjednodušující dodržování jednotných postupů v každodenní poradenské činnosti, a
to zejména u jevů nových, dosud nezachycených, a u jevů nekodifikovaných (jednoznačně).
Jednotnost je v poradenské praxi nezbytná, tazateli jazykové poradny bývají instituce, úřady
a média, jejichž jazykové chování je vysoce normotvorné – má celostátní, veřejnou a
oficiální působnost. Rozdílná řešení určitých jazykových problémů mohou mít pro
jazykovou praxi závažné důsledky. Zveřejnění dat jazykového poradenství posílí
společenskou odpovědnost pracoviště, protože s LSSDD společnost získá přehled o všech
aspektech jazykověporadenské práce.
5) Využití materiálu z LSSDD pro popularizační činnost, přípravu učebnic, skript i jiných
učebních textů (poskytnutí konkrétního jazykového materiálu tříděného podle mluvnických
kategorií) atd., a to jak pracovníky poradny, tak tvůrci učebních materiálů z řad veřejnosti
(učitelé všech stupňů škol, pracovníci nakladatelství – tvůrci učebnic).
6) Využití pro další elektronické zpracování, např. jako podklad pro tvorbu počítačových
aplikací zaměřených na automatické odpovídání.
7) Informace získané při vyplňování LSSDD v průběhu řešení projektu budou využity jako
referenční expertní znalost pro algoritmy strojového učení pro systém poloautomatického
zpracování dat pro vkládání do této databáze. Výsledná LSSDD bude obsahovat jedinečné
informace o jazyce získané od uživatelů poradny doplněné o odborné znalosti pracovníků
poradny. Tyto informace bude možné použít jako zdroj referenčních dat (informací od
učitele) pro vývoj algoritmů strojové klasifikace obsahu dotazů a porozumění přirozenému
jazyku.
Takto koncipovaná softwarová databáze bude potřebnou „kolektivní pamětí“ kodifikace a
lingvistiky vůbec a nástrojem, který umožní jednak překlenovat mezidobí do vydání nové
kodifikace, jednak zaplnit mezery v existující kodifikaci, protože dokáže zprostředkovat
odborné poučení o jevech (dosud) nezachycených v kodifikaci, popř. jevech, které v
kodifikaci nejsou popsané dostatečně.