Вы здесь:

А.Ә. ЖАҢАБЕКОВА, С.Қ. ҚҰЛМАНОВ, К.Қ. ПІРМАНОВА. «Қазақ тілінің мәтіндер корпусының» жұмыс істеу механизмдері

ӘОЖ 81.272

DOI: 10.51883/20704046_2020_3_174

А.Ә. ЖАҢАБЕКОВА, С.Қ. ҚҰЛМАНОВ, К.Қ. ПІРМАНОВА

«Қазақ тілінің мәтіндер корпусының» жұмыс істеу механизмдері

Корпус дегеніміз – әр тілдегі электронды пішінге келтірілген, бір басқару орталығынан автоматты түрде жұмыс істейтін, лингвистикалық ақпараттарды қамтитын өте көлемді мәтіндер жинағы. Корпус лингвистерге тіл білімінің барлық саласындағы ғылыми зерттеулерді қамтамасыз ету үшін, көлемі үлкен мәтіндік материалды лингвистикалық өңдеу рәсімдерін оңайлату үшін қажет. А.Байтұрсынұлы атындағы Тіл білімі институтындағы Қолданбалы лингвистика бөлімі Қазақ тілінің ұлттық корпусын жасау мәселесімен он жылға уақыт айналысып, осы ретте корпус жасаудың әдіс-тәсілдері мен теориялық негіздерін зерттеу, әртүрлі лингвистикалық және экстралингвистикалық белгіленім әзірлемелерін жасау, стильдер бойынша мәтіндермен толықтыру жұмыстарын кезең-кезеңге бөліп атқарып келеді. Корпус жасауда әдебиеттер таңдауда мәтіндердің жанрлық түрлілігін ескеру ең басты міндеттердің бірі саналады. Сонымен қатар, лингвистикалық ақпараттар мүмкіндігінше барлық тіл деңгейлерінен алынады. Ал, бірақ, корпус жасауда бірден барлық деңгей бойынша лингвистикалық ақпарат беру аса күрделі әрі мүмкіндігі де шектеулі. Солай бола тұра, «Қазақ тілінің мәтіндер корпусында» метамәтіндік белгіленімдер мен лингвистикалық белгіленімдерден – морфологиялық, сөзжасамдық, фонетикалық, морфосемантикалық белгіленімдер программасы іске қосылған. Мақалада корпусқа қазақ тілінің 5 стилі бойынша қандай мәтіндер (10 миллион сөзқолданыс) алынғандығы, метабелгіленімдердің түрлері (23 параметр), лингвистикалық белгіленімдер программасының жұмыс істеу механизмдері туралы сипатталады.

Кілтті сөздер: корпустық лингвистика, мәтіндер корпусы, белгіленім, метабелгіленім, конкорданс, репрезентативтілік, лемматизация.