Automatizuotas arbitraliųjų kolokacijų atpažinimas: būdvardžių ir daiktavardžių kolokacijos

2021 
Straipsnyje analizuojamas vienas kolokacijų tipas – arbitraliosios kolokacijos. Jos laikomos nemotyvuotomis (tuo skiriasi nuo kito kolokacijų tipo – trivialiųjų, arba motyvuotųjų, kolokacijų, pvz.: graži diena, naujas tyrimas), joms būdingas ribotas leksinis junglumas: pagal panasią reiksme teoriskai galima rinktis daugiau negu vieną žodį, bet linkstama vartoti būtent kurį nors vieną, pvz., platus akiratis, bet ne didelis akiratis, stipri sveikata, bet ne galinga sveikata. Analizuotos is „Lietuvių kalbos pastoviųjų žodžių junginių duomenų bazės“ atrinktos visos kolokacijos, sudarytos is būdvardžių ir daiktavardžių (apie 5000 junginių). Nustatyta, kad is jų apie 650 yra arbitraliosios kolokacijos. Atrenkant sias kolokacijas, taikytas sinonimų pakeiciamumo testas: jeigu kolokacijos būdvardiskasis dėmuo (būdvardis ir būdvardiskai vartojamas dalyvis) nėra pakeiciamas kitu artimos reiksmės sinonimu, tokia kolokacija laikoma arbitraliąja. Sis arbitraliųjų kolokacijų atrankos procesas buvo automatizuotas: automatiskai atrenkant artimus būdvardžių sinonimus junginiuose su daiktavardžiais, pritaikytas žodžių vektorių modelis. Automatiskai būdvardžiai ir dalyviai sugrupuoti į maždaug 800 vektorių eilucių. Straipsnyje aprasyta, kaip vyko duomenų analizė, vertinimas ir tikslinimas, kokios kolokacijos ir kiek jų pripažintos arbitraliosiomis naudojant sį metodą.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []