Dvouúrovňová morfologie

Z testwiki
Verze z 18. 10. 2023, 04:17, kterou vytvořil imported>InternetArchiveBot (Robot: Opravuji 1 zdrojů a označuji 0 zdrojů jako nefunkční) #IABot (v2.0.9.5)
(rozdíl) ← Starší verze | zobrazit aktuální verzi (rozdíl) | Novější verze → (rozdíl)
Skočit na navigaci Skočit na vyhledávání

Dvouúrovňová morfologie (Šablona:Vjazyce2) je model morfologie přirozených jazyků založený na řetězení morfémů a uplatňování morfologických změn (alternací).Šablona:Sfn Na rozdíl od mnohaúrovňové generativní morfologie pracuje s pouhými dvěma úrovněmiŠablona:Sfn – morfematickou úrovní a s úrovní povrchové reprezentace, kterou může být buď psaná reprezentace (ortografie) nebo výslovnost (fonologie). Model byl původně navržen pro finštinu,Šablona:Sfn ale lze jej použít pro mnoho dalších jazyků včetně češtiny. Umožňuje zachytit nejen flektivní, ale i derivační morfologii jazyka. U jazyků, jejichž pravopis je blízký fonetickému, je použitelná i pro převody mezi psanou podobou jazyka a jeho výslovností.

Dvouúrovňovou morfologii lze technicky realizovat pomocí konečných převodníků (Šablona:Vjazyce2), které lze používat oboucestně – jak pro analýzu, tak pro syntézu (generování). Správně realizovaná dvouúrovňová morfologie může snížit enormní počty vzorů používaných pro ohýbání slov v počítačových morfologiích na hodnoty blízké počtům prezentovaným ve školních mluvnicích.

Vlastnosti

  • Metoda pro charakterizaci alternací morfémů při jejich řetězení. Na rozdíl od generativní morfologie předpokládá existenci pouhých dvou úrovní – hloubkové morfologie a její povrchové reprezentace (psané ortografie nebo mluvené fonologické – dvouúrovňovou morfologie lze použít též pro fonologii).
  • Převod mezi oběma úrovněmi se provádí pomocí konečných převodníků (Finite State Transducers – FST), což jsou konečné automaty pracující nad abecedou dvojic symbolů (např. grafémů, fonémů), například A={e:0,k:c,h:z}, kde 0 znamená prázdný symbol, který umožňuje modelovat vznikové a zánikové alternace.Šablona:Sfn Každému elementárnímu morfologickému jevu odpovídá jeden nebo několik málo převodníků. Pro zachycení kompletní morfologie určitého jazyka se jednotlivé převodníky kombinují (spouštějí paralelně).
  • Výhodou dvouúrovňové morfologie je její dvoucestnost – lze ji používat pro syntézu i analýzu.Šablona:Sfn
  • Dvouúrovňová morfologie je velmi vhodný prostředek pro flektivní a aglutinační jazyky. Pro introflexní jazyky a jazyky, jejichž morfologie používá reduplikaci morfémů by mělo být použitelné její rozšíření.Šablona:Sfn

Mechanické realizace počítačových morfologických analyzátorů nebo generátorů slovních tvarů nezřídka narážejí u jazyků s bohatou morfologií na fakt, že křížením různých fonetických jevů a pravopisných pravidel se tradiční vzory skloňování a časování rozpadají na velké množství podvzorů.Šablona:Sfn Výhodou dvouúrovňové morfologie je, že k nárůstu počtu vzorů z uvedených důvodů nedochází, problémy však způsobuje kolísání některých slov mezi vzory.

Symbolický zápis pravidel

Každý fonetický jev (příp. pravopisné pravidlo) lze v dvouúrovňové morfologii popsat pomocí jednoho nebo několika pravidel, která se oproti zvyklostem obvyklým v matematice píšou zrcadlově obráceně, a mají obecný tvar:

CP op LC - RC

kde

  • CP je Šablona:Cizojazyčně popisující jádro dané alternace nebo jiného jevu; je zapsáno regulárním výrazem nad abecedou dvojic
  • LC - RC popisuje v jakém kontextu k uvedenému jevu dochází; - symbolizuje místo výskytu jevu, LC je levý kontext (Šablona:Cizojazyčně), RC je pravý kontext (Šablona:Cizojazyčně), oba se zapisují regulárním výrazem nad abecedou dvojic
  • op je logická spojka, která vyjadřuje podmíněnost příslušného pravidla:
    • <=>ekvivalenceCP je realizováno právě v kontextu LC - RC a nikde jinde
    • <=implikace – v kontextu LC - RC je realizováno CP
    • => – obrácená implikace – CP je realizováno pouze v kontextu LC - RC
    • /<= – inhibice – v kontextu LC - RC nesmí být realizováno CP

V zápisu dvojic se používají následující speciální symboly:

  • = – zastupuje libovolný jeden symbol (foném nebo grafém); v programech se obvykle místo = používá @
  • 0 – prázdný symbol – používá se pro zápis zánikových nebo vznikových alternací
  • # – symbol hranice slova (začátek nebo konec)

Odkazy

Reference


Literatura

Související články

Externí odkazy

Šablona:Pahýl