Rubriky: Mozilla

Sbíráme české věty pro Common Voice, přidejte se

Když Mozilla spustila projekt Common Voice, ve kterém sbírá nahrávky pro vybudování otevřeného datasetu, na kterém bude moci kdokoli učit systémy pro převod řeči na text, ze všech stran jsme slyšeli stesky, že je projekt jen v angličtině.

Po pár měsících fungování se ale začal Common Voice připravovat na další jazyky. Už teď je celý přeložený do češtiny a ta bude s největší pravděpodobností jedním z prvních jazyků, které se v něm objeví. Aby se tak ale mohlo stát, je potřeba, aby Mozilla měla k dispozici dostatek vět, které nechá dobrovolníky předčítat.

Proto jsme v Mozilla.cz spustili web voice.mozilla.cz, na kterém právě takové věty sbíráme. Kromě samotného vložení vět oddělených na samostatné řádky můžete využít i nástroj pro cherry picking, tedy vybírání třešniček. Ten z dlouhého, souvislého textu sám vybere věty, které délkou a obsahem odpovídají tomu, co je potřeba pro Common Voice. Vy je poté jen zkontrolujete a odešlete.

K tomu, aby mohl začít sběr nahrávek, je potřeba alespoň 2 000 vět. Z toho už máme desetinu. Pokud nám chcete pomoci, nemusíte dlouze sedět a vymýšlet věty, stačí vzít třeba knihy, kterým vypršela autorská práva a publikuje je Městská knihovna v Praze, jejich text zkopírovat do nástroje pro cherry picking a jen odeslat vybrané třešničky. U všech textů je pouze nutné mít souhlas autorů k jejich publikaci pod licencí CC-0.

5 komentářů k článku “Sbíráme české věty pro Common Voice, přidejte se”

  1. Charla napsal(a)

    Pokud by bylo možné a žádoucí naplnit systém větami, které nemusí být nějakého knižního původu, tak bych mohl do systému vložit řadu svých slohových prací a povídek, které jsem kdysi napsal. 😉

    1. Michal Vašíček napsal(a)

      Určitě to žádoucí je! Nevím, z čeho vyznělo, že chceme jen knížky, ale určitě jen knížky nechceme. 🙂 Vlastně jsou knížky z dlouhodobého hlediska dost nepraktické a používají se jen na úvodní naplnění databáze.

  2. davkol napsal(a)

    Common Voice přímo jsem neměl čas sledovat a tady to nikde nevidím: co je podstatné pro ten dataset?

    Odtušil jsem, že jde o syntézu řeči, a tedy cílem je asi nashromáždit věty (1) s co nejvíce fonémy, (2) s rozličnou větnou stavbou kvůli intonaci ve větě. Pak tedy bude podstatné zahrnout různé dialekty. (Mimochodem jsem zvědav, jak to bude řešit cizí slova s odlišnou výslovností – leda slovníkem…?)

    1. Michal Vašíček napsal(a)

      Nejde o syntézu, nýbrž o vytvoření datasetu. S tím si bude moct dělat kdokoli cokoli. Sama Mozilla na něm trénuje speech-to-text engine, ale dal by se nejspíš použít i pro text-to-speech.

    2. davkol napsal(a)

      To stále nevysvětluje, jaké vlastnosti je žádoucí, aby ten dataset měl.

      Je to pro účely strojového učení – ale když něco v datech nebude, stroj se to z nich nenaučí rozpoznávat; navíc „skewed data“ je jeden z problematických aspektů [etiky] strojového učení.

      Čímž se vracím k (z toho, co mě napadá) otázce (1) pokrytí slovní zásoby, (2) zastoupení dialektů tak, aby vynikly jejich odlišnosti.

      Protože se může stát, že skončíme se „skewed“ pravděpodobně pragocentrickým datasetem, na němž naučená aplikace si např. neporadí s otázkami s intonací charakteristickou pro okrajový region – např. když vůbec otázky nebudou ani mezi větami.