Rubriky: Mozilla

Stav češtiny v projektu Common Voice

20. 2. 2019

Projekt Common Voice sbírá hlasová data, na základě kterých bude možné trénovat modely a software pro rozpoznávání řeči. Všechna data jsou volně dostupná a pro zahrnutí češtiny potřebujeme i vaši pomoc.

První a zcela nezbytnou podmínkou je nasbírat dostatek textu, podle kterého budou vznikat hlasové nahrávky. Z našeho prvního pokusu nasbírat svépomocí dostatek vět jsme se přesunuli na nový nástroj Sentence Collector, který Mozilla k tomuto účelu připravila.

V době psaní článku máme v nástroji skoro dva a půl tisíce českých vět a stojí před námi dva úkoly.

Potřebujeme rozšířit počet vět v datové sadě, čím více, tím lépe.
Alespoň 5 tisíc vět musí být ručně ověřených několika lidmi, abychom se mohli dostat dále do fáze nahrávání hlasových záznamů.

Přidávání vět je velmi jednoduché. Stačí se přihlásit, nastavit v profilu češtinu a na adrese https://common-voice.github.io/sentence-collector/#/add psát nějaké smysluplné větičky. Důležitá je i licence všech textů, musí jít o volné dílo. Nepouštějte se tedy hned bezhlavě do opisování své knihovny ani kopírování textů z webových magazínů.

Druhou neméně záslužnou činností je ověřování vět. Aby nebyl celý dataset složený z gramaticky špatných nebo nesmyslných vět, vět, které vůbec nejsou česky nebo očividně nesplňujících podmínky licence, je probíhá ještě ruční kontrola. Tu můžete také dělat vy na adrese https://common-voice.github.io/sentence-collector/#/review/cs. Pro každou zobrazenou větu prostě rozhodnete, jestli je nebo není v pořádku, a formulář odešlete.

Podrobnější informace k přispívání skrze nový nástroj najdete zde. Pokud byste se chtěli na projektu Common Voice podílet více, ozvěte se nám.

3 komentářů k článku “Stav češtiny v projektu Common Voice”

soustruh napsal(a) 21. 2. 2019 v 12:29:

Ahoj, hned na obrázku v tomto článku vidím nesprávnou interpunkci (čárka před „než“), je to při schvalování vět problém? A co hovorové výrazy (líp, zelenej, tohohle)?
1. Michal Stanke napsal(a) 22. 2. 2019 v 6:52:
  
  Podle pokynů by měly projít jen věty bez překlepů a gramaticky správné. Je otázka, jestli opravdu každý, kdo věty bude kontrolovat, dá pozor na čárky. V tomhle konkrétním případě ta čárka asi roli nehraje, ale mohla by…
  
  Hovorové výrazy snad nevadí. Rozpoznávání hlasu je v reálném použití českými mluvčími potká a bude si s nimi muset poradit. Stejně jako se šumy z okolí a tak. Pro DeepSpeech je to IMO v pořádku, pro jiná použití nevím.
Michal Hradiš napsal(a) 24. 2. 2019 v 17:19:

Věty z mailů.

Vytvořil jsem velmi nedokonalý prográmek na extrakci vět v určitém jazyce z eml souborů https://github.com/michal-hradis/eml_sentense_extractor. Je možné např. z Thunderbirdu exportovat emaily a hromadně z nich takto vytáhnout věty. Jen je dobré to pak přečíst a odstranit citlivé a osobní informace :).

Použijte libovolně.

soustruh napsal(a) 21. 2. 2019 v 12:29:

Michal Stanke napsal(a) 22. 2. 2019 v 6:52:

Michal Hradiš napsal(a) 24. 2. 2019 v 17:19: