Task #3802: Témata - unsupervised - NAKI-II-USTR-UKONCENE - Projects of Department of Cybernetics & NTIS P1 - Cybernetic Systems, University of West Bohemia

Actions

Copy link

Task #3802

closed

Task #3633: Etapa 01 - Příprava dat a datových struktur, testy existujících metod

Témata - unsupervised

Added by Zajíc Zbyněk almost 10 years ago. Updated about 6 years ago.

Status:

Closed

Priority:

Normal

Assignee:

Ircing Pavel

Start date:

09.03.2016

Due date:

01.05.2018

% Done:

Estimated time:

Description

LSk na dodaných přepisech od ÚSTRu zkusí unsupervised shlukování

Related issues

Actions

Copy link

Updated by Skorkovská Lucie over 9 years ago

Due date changed from 31.05.2016 to 30.06.2016

podívám se na dodané přepisy na disku a co se s nimi dá dělat

Actions

Copy link

Updated by Zajíc Zbyněk over 9 years ago

Related to Task #3931: Test ASR added

Actions

Copy link

Updated by Zajíc Zbyněk over 9 years ago

Due date changed from 30.06.2016 to 31.08.2016

Actions

Copy link

Updated by Zajíc Zbyněk over 9 years ago

PI předá přepisy a kontakt na doktoranta co se zabývá tématy, LSk diplomanta zaúkoluje a společně nashlukují témata z dat z #3931

Actions

Copy link

Updated by Skorkovská Lucie over 9 years ago

Domluvili jsme se s Jaromírem Novotným na vyzkoušení sumarizačních metod z jeho diplomové práce. Vymysleli jsme varianty prvních pokusů, na co by se to dalo použít, podle prvních výsledků se pak vymyslí jestli je to reálně použitelné:

sumarizovat automaticky spojené větší množství otázek a odpovědí (třeba 10, nebo aby to mělo nějaký počet slov...)
sumarizovat dlouhé výpovědi v kuse, ty pak zkusit shlukovat - mohlo by pomoci shlukovacímu algoritmu
sumarizovat celý hotový shluk - získat tak jeho lepší popis než jednotlivými "důležitými" slovy co se získají z lsa a podobných metod

Actions

Copy link

Updated by Skorkovská Lucie almost 9 years ago

Podle J. Novotného je jeho sumarizační algoritmus nepoužitelný.
Shlukování jednotlivých textů selhává na jejich délce, je třeba je nějak rozdělit.
Texty je třeba rozdělit podle témat, testuji na to použití LDA podle rady Honzy Lehečky. Pak se budou dát možná shlukovat, nebo hledat podobné k vybranému textu - úseku.

Actions

Copy link

Updated by Zajíc Zbyněk almost 9 years ago

Ze schůzky [[https://wikky.zcu.cz/redmine/projects/naki-ii-ustr/wiki/Schuzka16-10-03]]:

LSk přepisy audiodat, obahují teoreticky mnoho témata (životní výpoděď očitých svědků)
- supervised metody nemáme data
- unsupervised moc dlouhé dokumenty
- budeme hledat spíše tématicky podobné dokumenty k danému doc.
dodělat -> rozsekat automaticky na tématicky ucelené bloky a ty rozpoznat (přes LDA)
-> nastudovat LDAtoVec

Actions

Copy link