В статье рассматриваются два метода разрешения анафоры казахских текстов на основе данных. Эти методы основаны на машинном обучении с аннотированными корпусами и не используют никакой дополнительной информации, кроме лингвистических признаков. Первый метод использует метод опорных векторов в качестве алгоритмов обучения и классификации, второй метод использует индуктор дерева решений. Авторы оценивают производительность методов с несколькими наборами функций и корпусов. Наборы признаков включали морфологические, синтаксические и семантические признаки. В этой статье оцениваютсятакже семантические особенности, а именно семантические роли, которые влияют на разрешение анафоры в казахском языке. Эксперименты показали, что точность SVM выше на экспериментальных данных практически для всех случаев. Показано, что семантические признаки повышают эффективность методов анафорного разрешения казахских текстов. Былорассчитано оптимальное расстояние между анафорой и гипотетическим антецедентом и использовано в применяемых методах.
Открыть статью
Аннотация:
Год выпуска журнала:
2022
Номер журнала:
2(86)
Ключевые слова: разрешение анафоры, машинное обучение, метод опорных векторов, деревья решений, семантические роли