Actions
Task #3802
closedTask #3633: Etapa 01 - Příprava dat a datových struktur, testy existujících metod
Témata - unsupervised
Start date:
09.03.2016
Due date:
01.05.2018
% Done:
0%
Estimated time:
Description
LSk na dodaných přepisech od ÚSTRu zkusí unsupervised shlukování
Related issues
Updated by Skorkovská Lucie almost 9 years ago
- Due date changed from 31.05.2016 to 30.06.2016
podívám se na dodané přepisy na disku a co se s nimi dá dělat
Updated by Zajíc Zbyněk almost 9 years ago
- Related to Task #3931: Test ASR added
Updated by Zajíc Zbyněk almost 9 years ago
- Due date changed from 30.06.2016 to 31.08.2016
Updated by Zajíc Zbyněk over 8 years ago
- PI předá přepisy a kontakt na doktoranta co se zabývá tématy, LSk diplomanta zaúkoluje a společně nashlukují témata z dat z #3931
Updated by Skorkovská Lucie over 8 years ago
Domluvili jsme se s Jaromírem Novotným na vyzkoušení sumarizačních metod z jeho diplomové práce. Vymysleli jsme varianty prvních pokusů, na co by se to dalo použít, podle prvních výsledků se pak vymyslí jestli je to reálně použitelné:
- sumarizovat automaticky spojené větší množství otázek a odpovědí (třeba 10, nebo aby to mělo nějaký počet slov...)
- sumarizovat dlouhé výpovědi v kuse, ty pak zkusit shlukovat - mohlo by pomoci shlukovacímu algoritmu
- sumarizovat celý hotový shluk - získat tak jeho lepší popis než jednotlivými "důležitými" slovy co se získají z lsa a podobných metod
Updated by Skorkovská Lucie about 8 years ago
- Podle J. Novotného je jeho sumarizační algoritmus nepoužitelný.
- Shlukování jednotlivých textů selhává na jejich délce, je třeba je nějak rozdělit.
- Texty je třeba rozdělit podle témat, testuji na to použití LDA podle rady Honzy Lehečky. Pak se budou dát možná shlukovat, nebo hledat podobné k vybranému textu - úseku.
Updated by Zajíc Zbyněk about 8 years ago
Ze schůzky [[https://wikky.zcu.cz/redmine/projects/naki-ii-ustr/wiki/Schuzka16-10-03]]:
- LSk přepisy audiodat, obahují teoreticky mnoho témata (životní výpoděď očitých svědků)
- supervised metody nemáme data
- unsupervised moc dlouhé dokumenty
- budeme hledat spíše tématicky podobné dokumenty k danému doc. - dodělat -> rozsekat automaticky na tématicky ucelené bloky a ty rozpoznat (přes LDA)
-> nastudovat LDAtoVec
Updated by Zajíc Zbyněk over 7 years ago
- Due date changed from 31.08.2016 to 01.05.2018
- Assignee changed from Skorkovská Lucie to Ircing Pavel
- vstuponí data rozsekat na cca 2.min. dokumenty s nějakým překryvem
- uživatel klikne do nahrávky a z okolí +-1min se vytvoří hledaný dokument
- nalézt N nejpodobnějších dokumentů k hledanému
- aplikovat jednu z metod z LSk disertačku
- s JS domluvit formát uložených indexů slov d DB
Actions