Rubriky: Mozilla

Common Voice v češtině spuštěn

3. 1. 2020

Je nám ctí Vám oznámit, že v čase předvánočním se podařilo dobrovolníkům sesbírat a ověřit posledních několik potřebných vět, a dokončit plnou lokalizaci stránky projektu Mozilla Common Voice, a tento je tak k dnešnímu dni již v plném provozu pro sběr nahrávek hlasu v českém jazyce.

Projekt Common Voice je iniciativa Mozilly, která pomáhá strojům učit se, jak mluví skuteční lidé.

Jenom pro připomenutí, co je to projekt Common Voice? Citováno z oficiální
stránky projektu Common Voice, „Projekt Common Voice je iniciativa Mozilly, která pomáhá strojům učit se, jak mluví skuteční lidé.“ Ve zkratce, projekt Common Voice vytváří databázi hlasových nahrávek zveřejňovanou pod tou nejsvobodnější licencí, to jest jako volné dílo. Tyto nahrávky sbírá od všech možných dobrovolníků, jako jste například i Vy nebo já, a dává je k dispozici komukoliv na jakékoliv použití, typicky například různé projekty strojového učení. Na rozdíl od některých podobných projektů se navíc nesnaží získat perfektně čisté nahrávky hlasu, ale spíše se orientuje na nahrávky takříkajíc z reálného života, kde lidé mluví na nekvalitní mikrofony v hlučném prostředí, a často navíc ještě z opačného konce místnosti. Tímto a svou otevřeností se tedy jedná o vskutku ojedinělý projekt.

Co tedy udělat, když se chcete také zapojit do tvorby databáze projektu Common Voice? Nejjednodušší, co můžete udělat, je prostě zamířit na stránky projektu Common Voice a začít číst nahlas věty tam nabízené. Nestrachujte se přitom o kvalitu svého mikrofonu nebo hlučnost svého okolí. Nízká kvalita záznamu není vůbec na škodu, a v podstatě jediné podmínky, které musíte splňovat, je, že zadané věty přečtete správně, v nahrávce půjde alespoň nějak rozpoznat, co říkáte, a na pozadí nebude nikde slyšet hlas nějaké jiné osoby, u kterého by šlo také rozpoznat, co říká. Navíc se ani nebojte, že byste měli na nahrávání málo času; nahrání jedné sady vět Vám zabere v průměru přibližně 30 sekund.

Pohled na stránku projektu Mozilla Common Voice

Pokud nechcete nebo nemůžete nahrávat, další možností je poté poslech a kontrola klipů již nahraných jinými. Z důvodů zajištění kvality dat v databázi totiž musí být u každé individuální nahrávky minimálně dvěma uživateli ověřena její přesnost. Toto pomáhá zabránit případům, kdy by kupříkladu uživatel kvůli přehlédnutí přečetl něco trochu jiného než je napsáno, či pomáhá bojovat proti různým internetovým individuím, která by se mohla pokoušet zanést do databáze místo zadaných textů různé vulgarismy.

V neposlední řadě pak můžete pomoci se sběrem textů ke čtení v rámci projektu Common Voice, a to na stránce nástroje pro sběr vět projektu Common Voice, opět ať už získáváním samotných vět do databáze z různých zdrojů, nebo jejich manuální kontrolou. Ačkoliv jsme již pro češtinu nasbírali dostatek vět, aby mohl být projekt Common Voice v češtině spuštěn, do budoucna jich přesto bude stále potřeba mnohem více.

5 komentářů k článku “Common Voice v češtině spuštěn”

Par otazek napsal(a) 4. 1. 2020 v 3:54:

Celou stranku sleduje FullStory, Inc ktera se zabyva sledovanim SMSek, e-maily, takze ma otazka, hlasy jdou na jeji servry?
Kdyz ty data budou ulozeny na nejakych americkych servrech jak se projevi ze je to volne dilo bez ochrany?
Jak se pozna ze data ktera ziskaji uvolni cele?
1. Jindřich Dítě napsal(a) 4. 1. 2020 v 15:43:
  
  Hlasy jsou ukládány v instanci S3 spravované Mozillou, ze které jsou v současné době dělané exporty 2x do roka. O žádné FullStory, Inc. osobně nic nevím, pokud Vám jde ale o to, mohou-li se k hlasovým datům dostat, pak odpověď je ano. K sesbíraným hlasovým datům mají přístup všichni zájemci, data jsou ovšem ukládána pouze s volitelně poskytovanými základními demografickými údaji (pro češtinu zatím pouze věk) a teoreticky nejsou zpětně provázatelná s uživateli, kteří je poskytli.
  Druhou část Vaší otázky bohužel zcela nechápu.
  K třetí části, v současné době se to nepozná, ale:
  1) ztransparentnění celého procesu uvolňování dat je v plánu projektu
  2) jaký důvod Vás napadá pro nezveřejnění všech sesbíraných dat? (pomineme-li věty obsahující expresivní výrazy)
  1. Par otazek napsal(a) 4. 1. 2020 v 23:23:
    
    cast2
    Kdyz je to volne dilo a neni zadna pravni ochrana, tak smeruju k tomu ze to mohou bez postihu pouzit ke komercnim ucelum a cele to pozdeji zariznout. Stane se to americke know-how.
    cast3
    Jakoze sesbirana RAW data mohou pred uvolnenim zamerne poskodit aby je uz kdokoliv nemohl pouzit pro stejny ucel. Proces nelze ztransparentnit pokud budou centralizovane ulozena. Vic bych duveroval kdyby to bylo pod hlavickou FSF nez Mozilly.
  2. Jindřich Dítě napsal(a) 5. 1. 2020 v 0:44:
    
    K části 2:
    Ke komerčním účelům sesbíraná data být použita mohou, a to technicky jak ze strany Mozilly tak i externích subjektů, na čemž ostatně není nic špatného, dokud bude existovat i otevřená alternativa nebo její možnost. I kdyby eventuálně poté někdy došlo k zaříznutí sběru vět, vyexportovaná data zůstanou i nadále k dispozici, když už ne ze stránek projektu, tak minimálně z různých webových repozitářů.
    K části 3:
    Nikdo Vám nebrání vyexportovaná data manuálně projít a ověřit jejich kvalitu. Pokud v nich nejdete jakékoliv nesrovnalosti, neváhejte nás kontaktovat. (nejbliší export by měl proběhnout někdy tento měsíc 🙂 )
  3. Marcel Janeček napsal(a) 6. 1. 2020 v 20:38:
    
    Abych byl upřímný, jsem docela rád, že to není pod FSF, protože alespoň máme data pod CC-0, zatímco FSF by použila nějakou obskurní copyleftovou licenci, nejlépe nekompatibilní se zbytkem světa.