Негізгі мәселе: Компьютерлік лингвистиканың алдында тұрған өзекті міндеттердің бірі – мәтіндік құжаттарда әртүрлі нысандар туралы: адамдар, ұйымдар, оқиғалар, орындар және т.б., сондай-ақ олардың арасындағы байланыстар туралы мәліметтерді бөліп көрсету болып табылады. Әрбір ақпараттық объект(нысан) белгілі бір ұғымға/пәндік аймақтың қатынасына сәйкес келеді және белгілі бір құрылымға ие. Табиғи тілді өңдеудегі бұл мәселе референция ұғымымен байланысты болады. Біз мақалада қазақ тіліндегі референциялық қатынасты шешу жолдарын қарастырамыз. Мақсаты: Қазақ тіліндегі есімдік анафорасын шешудің жолдарын қарастыру. Зерттеу барысында есімдік анафорасының морфологиялық, синтаксистік және семантикалық белгілерін жіктеу алгоритмдерін, Support Vector Machine және шешім ағаш әдісін пайдалана отырып «антецедент-анафор» жұбын табу. Біз оқыту және тестілеу деректер жинағы ретінде Tengrinews.kz- тен жаңалықтар топтамасы және Ғ.Мұстафин әңгімелерінен үзінділерді қолдану арқылы әр түрлі мәтін типтеріндегі «антецедент-анафор» жұбын табамыз және сөздер арасындағы қашықтықты есептейміз. Сондай-ақ семантикалық мүмкіндіктердің, атап айтқанда, семантикалық рөлдердің қазақ тіліндегі анафораның шешілуі өнімділігіне қалай әсер ететінін бағалаймыз. Әдістері: Қазақ тілі есімдіктерінің ерекшеліктерін ескеруде әр түрлі мәтіндерді жинақтап формальды талдау жасау әдісін қолдана отырып, жіктеу алгоритмдерін, Support Vector Machine және шешім ағаш әдісі қолданылады. Нәтижелер және олардың маңыздылығы: Қазақ тіліндегі анафоралық есімдіктердің ішінде ең көп кездесетін жіктеу, сілтеу есімдіктері және өздік есімдіктері, зерттеу барысында жинақталған мәтіндерден «антецедент-анафор» жұбының санын білу арқылы анафоралық қатынастың нақты көрсеткіштері саналды, «антецедент-анафор» жұптарының саны есептеліп, график түрінде екінші бөлімде толықтай көрсетілді. Бұл зерттеу жұмысы қазақ тілінің машиналық аударма, ақпаратты іздеу, ақпаратты алу және т.б. жүйелерде қолданылуы мен түрлі деңгейде талдауларға зор мүмкіндік береді.
Қазақ тіліндегі есімдік анафорасын шешу алгоритімі