Subject: Re: SAMPA From: hanzl@noel.feld.cvut.cz To: jmatouse@kky.zcu.cz, hanzl@noel.feld.cvut.cz, psutka@kky.zcu.cz, xbatusek@informatics.muni.cz, pollak@fel.cvut.cz, cernocky@urel.fee.vutbr.cz, Jan Nouza, zdena.palkova@ff.cuni.cz, betty@ure.cas.cz, horak@ure.cas.cz, simackov@ffnw.upol.cz, nygryn@fi.muni.cz, pinos@fi.muni.cz, geo@cuni.cz, janik@ff.cuni.cz, geo@math.cas.cz Date: Wed, 21 Nov 2001 12:20:13 +0100 X-Mailer: Mew version 1.94b25 on Emacs 20.4 / Mule 4.0 (HANANOEN) Vazeni ucastnici diskusi o ceske abecede SAMPA, posledni verze navrhu (po zapracovani drobneho a myslim rozumneho rozsireni, ktere navrhl pan Matousek) je take prilozen k tomuto emailu a je k dispozici take zde: http://noel.feld.cvut.cz/sampa/CZECH-SAMPA.txt Na diskusi stranku jsem pridal veskere souvisejici nazory, o kterych vim: http://noel.feld.cvut.cz/sampa/ (Pokud mate pocit, ze jsem Vas dulezity prispevek do diskuse na stranku nedal, dejte mi vedet, mohlo se to stat jen omylem. Tuto zpravu jsem se pokusil poslat vsem, kdo se diskusi zucastnili nebo by mozna chteli, nicmene mohl jsem snadno na nekoho zapomenout - v takovem pripade se mu omlouvam, snad mu nekdo tuto zpravu preposle.) Prosim vsechny, kdo se k navrhu jeste chteji vyjadrit, aby tak ucinili. Pokud (konecne) zavladne shoda, postupoval bych dle unoroveho navrhu pana Batuska (protoze profesor Wells na nase emaily jiz delsi dobu nereaguje, mozna nema cas, mozna ma pocit, ze nas nazor stale neni jednotny): > Ja bych to skoro vzdal [cekani na reakci prof. Welse] ... Zatim > se dohodneme na nejake ceske oficialni adrese pro SAMPU (co treba > noel.feld.cvut.cz/sampa/) a vystavme ji tam v HTML formatu, nebo v Unicode > nebo v PS nebo ve vsem. Na tu stranku si vsichni dejme odkaz ze svych > pracovnich stranek. a strucne na ni vysvetleme, ze to je ceska verze > SAMPY, na niz se shoduji skoro vsichni Cesi z oboru. > > Pane Hanzle, slo by to takto zaridit? (pripadne nejak pomohu, minimalne > tu adresu pak rozeslu vsem zucastnenym na nasi diskusi) Pane Batusku, pokud souhlasite s CZECH-SAMPA.txt, byl byste ochoten vyrobit verze v jinych formatech? (Umite to myslim lepe nez ja...) Soucasny navrh je pokud vim prijatelny pro vetsinu zucastnenych. Problemy muze tento navrh zpusobit snad jen nekterym ucastnikum projektu MBROLA, jak upozornil Jiri Hanika: >Jakousi SAMPu pouzivaji ceske difonove inventare, ktere asi pred >rokem vznikly v Brne a jsou na webu Universite de Mons ke stazeni. >Druhy z nich jde dokonce poslouchat. Asi je to trochu starsi verze >te Batuskovy. O jinem navrhu nevim. Pokud z tohoto duvodu nekdo nesouhlasite s poslednim navrhem, snazne Vas prosim, pokuste se o kompromis a zkuste omezit sve pripominky jen na na opravdu nezbytna DOPLNENI inventare o volitelne casti (tak jako je v soucasnem navrhu pojata napr. definice nekterych alofonu). Soucasny navrh je vysledkem velmi dlouhe, namahave, vetsinou vecne a nekdy i bourlive diskuse, nasledovane hledanim kompromisu (a casto vzajemnymi omluvami). Snad se nam jiz podari vyhnout se dalsimu vzplanuti rozepri. (Pak ucinim posledni pokus primet k reakci prof. Wellse.) S pozdravem Vaclav Hanzl >Subject: SAMPA >From: Jindrich Matousek >To: >Cc: "Josef Psutka" , > "Robert Batusek" >Date: Thu, 15 Nov 2001 15:12:50 +0100 >X-Mailer: Microsoft Outlook Express 5.50.4807.1700 > >Dobry den, > >Zajimam se o ceskou verzi abecedy SAMPA. Na oficialni strance jsem >odkaz na ceskou verzi nenalezl, ale v adresarove strukture jsem pak >nasel navrh ceske SAMPy od Roberta Batuska. Od Roberta jsem se take >dozvedel dalsi podrobnosti a precetl jsem si take diskusi na >http://noel.feld.cvut.cz/sampa/. > >Predne bych chtel ocenit praci Vas vsech, kteri jste se na navrhu >ceske abecedy podileli. Vyslednou verzi (uvedenou v je >http://noel.feld.cvut.cz/sampa/hanzl5-english.txt) povazuji za velmi >zdarilou a obsahlou. > >Rozsahem se tato abeceda temer nelisi od te, kterou navrhli spolecne >Nouza, Psutka a Uhlir v roce 1997 ("Phonetic Alphabet for Speech >Recognition of Czech", Radioengineering, vol. 6, December 1997) a >kterou u nas na KKY FAV ZCU v Plzni od te doby pouzivame. > >Po nekolikaletych zkusenostech s transkripci pomoci teto abecedy jsme >dospeli k zaveru, ze nam v ni chybi symbol pro redukovanou samohlasku >(sva, "obracene e" v abecede IPA, @ obecne v abecede SAMPA). Bez ni >neni mozne v ceskych transkripcich provadet napr. "spelovani" >souhlasek /p@, b@/ ..., nebo vyslovovat nektere zkratky (napr. zkratku >DTW mohu vyslovit jako /de:te:ve:/ nebo /d@t@v@/. Navrh ceske SAMPy >take s timto fonemem nepocita. I kdyz se zrejme nejedna o cesky fonem, >nebylo by vhodne jej do ceske SAMPy zahrnout? > >S pozdravem, >Jindrich Matousek > >P.S. Nevite, proc jeste neni ceska SAMPA uvedena na hlavni strance >SAMPA? Znamena to, ze stale jeste nebyla uznana jako oficialni? > ================================================================ From: Robert Batusek To: hanzl@noel.feld.cvut.cz Date: Thu, 22 Nov 2001 09:59:58 +0100 On Wed, 21 Nov 2001 hanzl@noel.feld.cvut.cz wrote: > Pane Batusku, pokud souhlasite s CZECH-SAMPA.txt, byl byste ochoten > vyrobit verze v jinych formatech? (Umite to myslim lepe nez ja...) Posilam tedy HTML a HTML Unicode verzi. ... ================================================================ From: Jirka Hanika Navrh se mi velice zamlouva a podporil bych ho i v teto podobe, ale presto bych se silne primlouval za nasledujici upravu: presunout e_u z pomocnych diftongu mezi diftony. Pokud to nejde, jako druhou moznost bych videl presun a_u (a kdyz uz, tak lepe i o_u) opacnym smerem. Duvod: slova pneumatika nebo leukoplast maji v cestine po vsech strankach stejny status jako slova auto nebo laureat. Tim padem je toto odlisne odbaveni obou dvojhlasek nesystematicke. Vzhledem k tomu, ze chceme sampu pouzivat pro prakticke ucely, a v textech se tyto dvojhlasky vyskytuji stejne bezne jako o_u, bych z uvedenych dvou moznosti preferoval odstehovat e_u do zakladni casti. Pokud by to nekomu melo zpusobit vetsi technicke obtize, samozrejme to neni nutne, hlavni je nalezeni shody zachovavajici dosud vytvorene korpusy. Preji krasny den vsem, kdo se na teto uzitecne iniciative podileji, Jirka Hanika ================================================================ From: hanzl@noel.feld.cvut.cz Vazeny pane Haniko, Dekuji za Vasi reakci. (Pokud si nekdo z adresatu nepreje dostavat kopie dalsi diskuse, dejte mi prosim vedet.) > Navrh se mi velice zamlouva a podporil bych ho i v teto podobe, ale > presto bych se silne primlouval za nasledujici upravu: > > presunout e_u z pomocnych diftongu mezi diftony. Pokud to nejde, jako > druhou moznost bych videl presun a_u (a kdyz uz, tak lepe i o_u) > opacnym smerem. > > Duvod: slova pneumatika nebo leukoplast maji v cestine po vsech strankach > stejny status jako slova auto nebo laureat. Tim padem je toto odlisne > odbaveni obou dvojhlasek nesystematicke. Vzhledem k tomu, ze chceme > sampu pouzivat pro prakticke ucely, a v textech se tyto dvojhlasky > vyskytuji stejne bezne jako o_u, bych z uvedenych dvou moznosti > preferoval odstehovat e_u do zakladni casti. > > Pokud by to nekomu melo zpusobit vetsi technicke obtize, samozrejme to > neni nutne, hlavni je nalezeni shody zachovavajici dosud vytvorene > korpusy. Takovy presun je jiste mozny a kompatibilitu s existujicimi korpusy narusuje jen minimalne. Soucasny navrh je strukturovan zhruba takto: 1) zavazna cast 2) volitelna zpresneni, predevsim dalsi alofony 3) upozorneni na casti obecneho navrhu pouzitelne pro cestinu Umisteni nekterych symbolu do 1, 2 ci 3 je opravdu sporne. (Ja napriklad vaham, zda "@", ktere navrhl pan Matousek a ktere jsem pridal do casti 1, nema byt spise v casti 2 ci 3.) Nicmene soucasne umisteni "e_u" v casti 2 je vysledkem mnoha uvah, diskusi a dokonce i experimentu s radou mluvcich. Stucne bych je shrnul takto: Z mnoha hledisek lze pozorovat pozvolny prechod v rade o_u a_u e_u: 1) vetsi-mensi cetnost vyskytu 2) domaci-cizi puvod 3) vetsi-mensi ustalenost vyslovnosti Bylo by hezke mit vsechny tri symboly v jedne skupine, ale vlastnosti prvniho a posledniho prvku rady jsou velmi odlisne. O vysvetleni s priklady jsem se pokusil zde: http://noel.feld.cvut.cz/sampa/hanzl1-english.txt (V dokumentu venujte pozornost jen popisu vlastnosti, navrh abecedy SAMPA byl tehdy odlisny.) Nikdo nevyslovi "pavouk" jako "samouk" ci naopak, a pokud ano, posluchac casto nerozumi. Naopak na dotaz "kolik slabik ma slovo pneumatika" neni jednotna odpoved. U slova "auto" nikdo nezavaha. Jednoznacne pripady s "eu" jsou vyjimecne (euforie, euro). Situaci znacne komplikuje i rada slov zacinajici na "neu-" - cesky mluvci ma tendenci citit (nekdy mylne) sev za "ne-". Spisovna vyslovnost, pokud se ji vubec lze dopatrat, navrhuje nekde vyslovit dvojhlasku "e_u", nekde dve hlasky "e - u" a nekde pripousti oboji. Mluvci v praxi rikaji temer cokoli kdekoli (pokud lze poznat co rekli), a nelze se divit - zalezi na davne historii daneho slova. Zkuste spocitat slabiky ve slovech "neuron", "neutron" atd., pak o totez pozadejte treba studenty ve tride, a pak zapatrejte v etymologickem slovniku, latinskem slovniku a reckem slovniku a reknete, co je spravne. A pak treba porovnejte zvukove zaznamy se zaznamy slov "neutucha", "neustale" atp. Celkove vzato, bylo by velmi osidne nekoho nutit, aby povinne rozlisoval, kde je "e_u" a kde "e - u". (V hanzl1-english.txt jsem kdysi navrhoval pomerne slozite reseni, ktere umoznovalo zachytit i neurcitost, ale to myslim rozhodne nepatri do povinne casti.) Zvazte to, kazdopadne nade vse si nyni vazim vseobecne shody... S pozdravem Vaclav Hanzl ================================================================ From: Jirka Hanika ... > 1) zavazna cast > 2) volitelna zpresneni, predevsim dalsi alofony > 3) upozorneni na casti obecneho navrhu pouzitelne pro cestinu > > Umisteni nekterych symbolu do 1, 2 ci 3 je opravdu sporne. (Ja > napriklad vaham, zda "@", ktere navrhl pan Matousek a ktere jsem > pridal do casti 1, nema byt spise v casti 2 ci 3.) v tomto bode bych spise podporoval umisteni do casti 1, nicmene umisteni v casti 3 je jiste stejne dobre mozne. Rozhodne bych nedoporucil presouvani do casti 2, kde se v soucasnosti nachazeji dva nepovinne a jeden povinny alofon, @ neni jevem ani jednoho z techto typu a ma spise charakter fonologicky nezavisle samohlasky, pokud se (v nespisovnem projevu) vyskytne. > Nicmene soucasne umisteni "e_u" v casti 2 je vysledkem mnoha uvah, > diskusi a dokonce i experimentu s radou mluvcich. Stucne bych je > shrnul takto: Nepochybuji o tom, a rozhodne nejste (bohuzel) sam, ale dovolte mi prednest i protiargumenty. > Z mnoha hledisek lze pozorovat pozvolny prechod v rade o_u a_u e_u: (a lze pravdepodobne dodat i velmi sporne i_u, napr. "pametliv" v nekterych dialektech, ktere vsak z principialnich duvodu nikdy nelze zamenit s iu, cimz je diskvalifikovano do prvni casti navrhu). > Nikdo nevyslovi "pavouk" jako "samouk" ci naopak, a pokud ano, > posluchac casto nerozumi. Naopak na dotaz "kolik slabik ma slovo > pneumatika" neni jednotna odpoved. Obavam se, ze v me generaci uz je "pneumatika" jednoznacne ctyrslabicna a "leukoplast" trojslabicna. Pochybujete-li o tom, jsem ochoten podniknout vyzkum dostatecneho rozsahu, a viz tez nize. Zcela souhlasim, ze "neuron" a "neutron" jsou naprosto rozkolisane. Presne z duvodu, ktere sam uvadite. Zvukovych zaznamu "neumyty" a spol. jsem se naposlouchal behem studia fonetiky aspon neco malo, domnivam se aspon, ze i ti mluvci libovolneho veku, kteri zde vyslovuji (jak jste spravne pozoroval) neprilis peclive dvojhlasku, toto slovo pocituji ctyrslabicne. Navic, na morfologickem svu v "neumyty" bezne uslysite hlasivkovy raz (v cestine, na rozdil treba od slovenstiny), a jeho vyskyt je tam vhodny - naopak, ve slove "pneumatika" ho nikdy nevyslovi ani starsi clovek, tudiz by aplikace v analyze ani synteze pravdepodobne nemely e_u a eu nikdy smesovat jen kvuli ridkosti kterekoli z techto moznosti (ovsem eu i e_u je daleko beznejsi, nez N, ktere bez fonologickeho duvodu do casti 1 nejak proniklo) nebo kvuli vyznamne neurcite oblasti, kterou ovsem stejne tak trpi i a_u (kolik slabik ma "ponauceni"?) nebo mozna i o_u (jak Vase deti vyslovuji "prvouka"? je jednota ve slovech "poukaz", "pouceny"? ...a nabidl bych Vam i lepsi priklady, nebyt okolnosti, ze se v latine, rectine, nemcine ani francouzstine dvojhlaska "ou" doopravdy nevyskytuje a hledat zatemnene etymologie ci viceznacna okoli je tedy trochu tezsi). > U slova "auto" nikdo > nezavaha. Jednoznacne pripady s "eu" jsou vyjimecne (euforie, > euro). "euro" brzo v nekterych zanrech pujde do prvni tisicovky frekvencniho slovniku, lec nejde jenom o inicialni vyskyt. Zeptal jsem se prave kolegy (nikoli fonetika, alebrz matematika), kolik slabik ma "pneumatika". Pravil, ze ctyri, a na otazku, co by si myslel o cloveku, ktery tam slysi pet, pravil, ze dotycny "zrejme neumi cesky". Ja si to myslim taky a troufal bych si tento postoj zobecnit na celou ceskou populaci, a to na desitky nijak vyjimecnych lexikalnich polozek. > Celkove vzato, bylo by velmi osidne nekoho nutit, aby povinne > rozlisoval, kde je "e_u" a kde "e - u". Minimalni par neznam, ale tvrdim, ze vlozeni razu v cestine na prechodu samohlasek eu, je bezne a vhodne, zatimco v nasi oblibene pneumatice a mnoha dalsich e_u nepripustne. Rad se poucim, jestli Vy pro a_u minimalni par znate (pokud mozno ovsem ne sporne minimalni pary, jako by v pripade eu/e_u bylo "neuma" versus "ne_uma"). > (V hanzl1-english.txt jsem > kdysi navrhoval pomerne slozite reseni, ktere umoznovalo zachytit i > neurcitost, ale to myslim rozhodne nepatri do povinne casti.) Souhlasim. > Zvazte to, kazdopadne nade vse si nyni vazim vseobecne shody... I ja, proto jsem take napr. nereagoval na nesystematicke vyreseni velarniho N a Q\ (nezneleho r") (kde se dokonce do povinne casti dostal jednoduseji podmineny a mene se vyskytujici alofon, zatimco velmi caste Q\, jehoz zohledneni je naprosto nevyhnutelne napriklad pro kvalitni syntezu reci, zustalo nestastne ve druhe casti. Ackoli nejsem expertem na rozpoznavani, myslim, ze schopnost spolehlive rozlisit slova jako "trit" a "drit" v rychle reci by se rovnez - mozna - podstatne zlepsila, kdyby Q\ bylo zohledneno pri tvorbe korpusu - zkuste si to nahrat. Zadny mluvci se bez Q\ neobejde a ve vsech kontextech ho prisne rozlisuje od P\, coz stejne tak plati o N, ale neplati to o F, G, a_u, e_o a podle meho nazoru ani o o_u (viz vyse), a dokonce ani o nekterych jednoznacnych kandidatech pro prvni skupinu, jako je d_z ("podzim" se vyskytuje dz i d_z i cokoliv mezi tim, a presto se ho Vas rozpoznavac obetave snazi rozlisovat). Neni zadny odborny duvod, proc by Q\ nemelo byt v povinne casti, nicmene vazim si Vami vytvoreneho dila (korpusu) a za svou osobu jsem ochoten soucasne suboptimalni reseni prijmout, je-li na nem shoda, a pokud Vy jste ho dosud nepodporoval, takrikajic z technickych duvodu. Nicmene pokud by prerazeni a_u a o_u z povinne casti do nepovinne, nebo prerazeni e_u do povinne zadny existujici projekt nenarusilo, zda se mi stavajici usporadani nestastne a tezko bych ho svym studentum dokazal vysvetlit jinak, nez jako bezduvodne. Co kdybychom se domluvili, ze dvojhlasky budou v nepovinne casti? To by nemelo technicky byt na obtiz nikomu. Stale ale plati, ze budu podporovat _jakykoli_ navrh ceske SAMPy, mozna prave proto, ze sama SAMPA je dosti nesystematicka (a ostatne kazdy pokus o jazykove univerzalni fonetickou transkripci musi byt misty nutne trochu nesystematicky nebo arbitrarni). Myslim, ze nas vsechny spojuje konkretni zajem na tom, aby se konecne bylo o co oprit - my konkretne bychom to ocenili kvuli rozhrani syntetizeru MBROLA. Necitte se prosim nucen memu nepodstatnemu navrhu vyhovet nebo me malickosti donekonecna vysvetlovat neco, co mi pripadne muze unikat. Mejte se dobre, Jirka Hanika ================================================================ From: hanzl@noel.feld.cvut.cz > > vaham, zda "@" ... nema byt spise v casti 2 ci 3 > > v tomto bode bych spise podporoval umisteni do casti 1, nicmene umisteni > v casti 3 je jiste stejne dobre mozne. OK, zustava zatim v 1, chce-li to nekdo jinak, ozvete se. > >Naopak na dotaz "kolik slabik ma slovo pneumatika" neni jednotna odpoved. > > Obavam se, ze v me generaci uz je "pneumatika" jednoznacne ctyrslabicna Asi ano, nicmene lide, kteri mi rekli "tri", jsou stale nazivu :) [Dementi: v tomto mailu jsem se spletl, "tri" mi nikdo nerekl. V.Hanzl, Feb 2003] Ale nejde snad o pneumatiku, dulezite myslim je to, ze existuje mnoho slov s "eu", u kterych je rozkolisanost nesporna (zkousel jsem ruzne pocitaci testy se studenty, obecne lze rici, ze rozkolisanost je vetsi, nez si kazdy jednotlivy mluvci mysli). > Nicmene pokud by prerazeni a_u a o_u z povinne casti do nepovinne, nebo > prerazeni e_u do povinne zadny existujici projekt nenarusilo, zda se mi > stavajici usporadani nestastne V databazi SpeechDat (http://noel.feld.cvut.cz/sampa/speechdat-sampa.ps) jsme meli vsechny tri v "povinne" casti. (Tedy tam zadne deleni 1-2-3 neni, proste jsme nektere symboly pouzili a "e_u" je mezi nimi.) Umisteni "e_u" do casti 2 byl vlastne muj ustupek, pro ktery jsem se dosti snadno rozhodl, protoze nase zkusenosti se snahou o poctive rozlisovani "e - u" od "e_u" jsou spatne. Deleni na 1-2-3 je ostatne trochu nadstandartni, pro jine jazyky je ponechan volny pruchod pripadnym chaotickym doplnkum podrobnosti. Takze bych si nedelal moc tezkou hlavu s tim, co je v casti 1 ci 2, a do casti 1 dal to, na cem se bez problemu vsichni shodnou. > Neni zadny odborny duvod, proc by Q\ nemelo byt v povinne casti Souhlasim. Neni tam z techto duvodu: 1) Chtel jsem se co nejmene vzdalit od [batusek1]. 2) Byl jsem trochu pohodlny pri tvorbe databaze SpeechDat a nechtel jsem podobnou pohodlnost zakazovat ostatnim. 3) Rozpoznavacum nechybi prilis, pouzivane struktury nedostatek nejak nahradi. 4) Cekal jsem, kdo si prvni postezuje, abych zjistil, kdo o navrhu premyslel. Preji-li si to i ostatni, presuneme Q\ do 1. S pozdravem Vaclav Hanzl ================================================================ From: "Zdena Palkova" See file palkova3-czech.* I (Hanzl) summarise here: e_u should not be in part 1 Q\ should be in part 1 ================================================================ From: hanzl@noel.feld.cvut.cz To: zdena.palkova@ff.cuni.cz ... necham "e_u" tam kde je a presunu "Q\" na spravne misto. Rad bych vedel, co si myslite o umisteni "@" (schwa) - ted je v prvni casti, nepatri spise do treti? Take bych rad pridal do treti casti "?" (raz) - povazijete to za spravne reseni? ================================================================ From: "Zdena Palkova" vrele souhlasim s presunem @ do treti skupiny. Vyskyt je velmi fakultativni a krome nekolika malo situaci spise metajazykovych a cteni zkratek patri do vyslovnosti priznakovych typu (tempo, naznakova dikce atd.). Soudila jsem, ze zarazeni do 1. skupiny bylo motivovano technickou potrebou rozpoznavani nebo syntez. Pokud jde o raz: Urcite je treba ho umistit. V urcitych situacich je zcela zavazny a prirozene pouzivany (vsude). V praxi po kazde realne pauze, tedy napr. na zacatku vety spise bude nez ne. Take v kombinacich s i predlozkami, zejm. neslabicnymi, pri kombinaci dvou vokalu na svu slov atd. Napr. v synteze TTS dojdeme k mene "chybam", kdyz ho zavedeme autmaticky, nez kdyz ho vynechame. Souhlasim s ostatnimi: je ho vice potreba a vyskytuje se ho vice, nez schwa. ================================================================ From: hanzl@noel.feld.cvut.cz Vazeni ucastnici diskuse o ceske abecede SAMPA, zda se, ze zavladla shoda pokud jde o pouzite symboly pro ceske jednotky - z tohoto hlediska povazuji tedy navrh za temer definitivni (LAST CALL - kdo nesouhlasi, ozvete se). Drobne upravy bude zrejme vhodne provest nanejvys v umisteni symbolu do sekci 1-zakladni, 2-zpresnujici, 3-doporucene z [wells0]. Neznele r^ "Q\" bude zrejme za vseobecne shody presunuto z 2 do 1. Sporne "e_u" bych na doporuceni prof. Palkove ponechal tam, kde je; pro vsechny je to prinejmensim prijatelne. Schwa "@" by mozna melo byt presunuto z 1 do 3, zde bych uvital vase komentare. Do 3 bych dale pridal raz "?" (glottal stop). Mate-li dalsi doporuceni pro sekci 3, nevahejte se ozvat. ================================================================ From: Petr Horak > Neznele r^ "Q\" bude zrejme za vseobecne shody presunuto z 2 do 1. o tomto myslim neni sporu, "Q\" patri do skupiny 1 > Sporne "e_u" bych na doporuceni prof. Palkove ponechal tam, kde je; pro > vsechny je to prinejmensim prijatelne. ja bych sice byl spise pro skupinu 1, ale vzhledem k nesystematicnosti SAMPA notace jako takove myslim, ze je dulezitejsi jednotny zapis cestiny, nez neustale generacni diskuse :-) Takze souhlasim. > Schwa "@" by mozna melo byt presunuto z 1 do 3, zde bych uvital vase > komentare. zde bych s presunem do skupiny 3 take souhlasil > Do 3 bych dale pridal raz "?" (glottal stop). Mate-li dalsi doporuceni > pro sekci 3, nevahejte se ozvat. i s timto bych souhlasil, dokonce si myslim, ze raz je dulezitejsi nez @ (z pohledu syntezy, rozpoznavaci by se mnou jiste nesouhasili) ================================================================ From: Jirka Hanika ... dalsi debatu uz si povinna hlaska a_u pravdepodobne nezaslouzi a ja se s ni smiruji. Zvlaste s ohledem na to, ze existuje i jedna domaci lexikalni polozka tuto hlasku obsahujici (ba dokonce obsahujici pouze tuto hlasku), coz o puvodem zcela cizim e_u nelze rici. > Deleni na 1-2-3 je ostatne trochu nadstandartni, pro jine jazyky je > ponechan volny pruchod pripadnym chaotickym doplnkum podrobnosti. Kazdopadne jsem vsem autorum za tento nadstandard vdecny. Jeste bych dodal k hlasivkovemu razu, ze jde o problem, ktery dosti souvisi s problemem dvojhlasek. Napriklad rozpoznavac, ktery o razu nevi, by rozdil ou a o_u dost mozna v realne nahravce rozpoznal podle pritomnosti razu - stejne tak pri synteze by difon ou na rozdil od hlasky o_u mozna obsahoval raz. Rekl bych, ze pro rozpoznavac muze mit smysl rozlisit o?u, ou, o_u (opravte me, mylim-li se), nebot se vsechny v mluvenych textech vyskytuji - naopak pro TTS se mi tezko predstavuje ucelne vyuziti vice nez dvou z techto tri kombinaci. Bylo by tedy zrejme zadouci, aby napr. pripadne ceske hlasy pro MBROLu z ruznych pracovist rozlisovaly bud o?u a o_u, nebo ou a o_u nebo pouzivaly zastupne segmenty k podpore vsech tri moznosti pomoci dvou fyzickych realizaci. (Rozlisovat vsechny tri moznosti je nejen - snad - bezucelne, ale je tez komplikovane je z mluvciho vydolovat). Je otazka presne formulace zminky o razu v casti 3, zda bude k nektere konkretni z techto variant vybizet - z hlediska jednotnosti budouciho pouzivani SAMPy v synteze reci by to asi bylo velmi zadouci, at uz je to varianta kterakoliv. ================================================================ From: "Jindrich Matousek" > Neznele r^ "Q\" bude zrejme za vseobecne shody presunuto z 2 do 1. Souhlasim. Z hlediska syntezy reci je nanejvys vhodne postavit znelostni par "Q\ - P\" na uroven ostatnich paru "t - d, p - b, ..." > Sporne "e_u" bych na doporuceni prof. Palkove ponechal tam, kde je; pro > vsechny je to prinejmensim prijatelne. Pro "e-u" nemam vyhraneny nazor, takze bych nebyl proti zadne variante. Takze ani nemam nic proti tomu, aby "e_u" na rozdil od ostatnich diftongu bylo nebylo ve skupine 1. > Schwa "@" by mozna melo byt presunuto z 1 do 3, zde bych uvital vase > komentare. S presunem "@" do skupiny 3 souhlasim. V cestine se prece jen vyskytuje velmi zridka spise v nespisovne mluve a jeho umisteni v "hlavni" skupine by mohlo byt zavadejici. > Do 3 bych dale pridal raz "?" (glottal stop). Mate-li dalsi doporuceni > pro sekci 3, nevahejte se ozvat. Na raz jsem malem zapomnel... Souhlasim s Petrem Horakem, ze raz je z pohledu syntezy reci dulezitejsi nez schwa. Rozsireni ceske SAMPy o symbol razu "?" a jeho zarazeni do skupiny 3 podporuji. ================================================================ From: hanzl@noel.feld.cvut.cz To: Jan Nouza dovolil jsem si Te zavalit jiz celou radou mailu o abecede SAMPA, protoze vase pracoviste jiste patri k tem nejpovolanejsim, kdo by k tomu mohli chtit neco rici. Samozrejme netusim, zda vas to zajima, a omlouvam se za predchozi emaily, pokud ne, ale velmi rad bych mel Tvou aspon strucnou reakci, at je jakakoli (souhlas, dalsi doplnky, nesouhlas, nezajem, neni na to cas ...) ================================================================ From: Jan Nouza perifernim videnim jsem sledoval celou diskusi. Asi jsem plne nepochopil jeji ucel. U nas v Liberci se natolik vzila abeceda PACcz, predevsim protoze je snadno citelna a ze s ni pracuji studenti po nekolikaminutovem zauceni, ze jsem necitil potrebu dalsi abecedy, navic tezko pamatovatelne a slozite aplikovatelne. Nakonec vis, jak je to v anglictine. Nevim, ze by nekdo v USA nebo UK pouzival SAMPu nebo IPu (krome fonetiku). Vsichni jedou podle abecedy zavedene v HTK nebo NIST. Jsou to znacky (vetsinou sprezky), ktere jsou pro ne asi tak snadno citelne jako nase znaky z hacky a carky. Domnivam se, ale mozna se pletu, ze SAMPA je neco jako esperanto. Je mezinarodni, ale nikdo ho nepouziva, protoze vsichni do nej museji prekladat. ================================================================ From: hanzl@noel.feld.cvut.cz To: Jan Nouza ucel SAMPy je samozrejme velmi omezeny a my take na vse pouzivame abecedu typu PACcz (i kdyz jinou nez vy). ... SpeechDat SAMPu vyzaduje a tak jsme se kdysi pokusili, aby ceska verze alespon neobsahovala evidentni nesmysly. Diskuse se tahnou dodnes a je myslim velmi kuriozni, ze je ridim ja ... (Projekt MBROLA ji take pouziva.) Soudim, ze Ty se k vytvoreni nejake nove SAMPy nechystas (za coz jsem Ti vdecny) a ze Te tedy uz nebudu zaplavovat kopiemi diskusi o "e_u". Lexicon ve SpeechDatu v SAMPe jsme samozrejme vytvorili automatickou konverzi, coz vyzaduje prijatelne podobny inventar jednotek. To je snad jedine, co by vas na SAMPe mohlo zajimat, pokud si nejste absolutne jisti, ze vam ji nikdy nikdo nevnuti. ================================================================