МЕЖДУНАРОДНЫЙ ЖУРНАЛ ИНФОРМАЦИОННЫХ И КОММУНИКАЦИОННЫХ ТЕХНОЛОГИЙ

Освещение новых идей, вопросов науки и техники, последних разработок и исследований для специалистов широкого круга

A NAIVE BAYESIAN CLASSIFIER FOR NORMALIZATION OF TEXT: A CASE STUDY FOR KAZAKH LANGUAGE

Авторы

  • Tolegenova A. Suleyman Demirel University

DOI:

https://doi.org/10.54309/IJICT.2022.11.3.002

Ключевые слова:

нормализация текста, алгоритм наивного Байеса, естественный язык, обработка текста, классификатор.

Аннотация

Количество сложных документов и текстов в последние годы увеличилось в геометрической
прогрессии, что требует более глубокого понимания технологий машинного обучения для эффективной
идентификации текстов в многочисленных приложениях. Нормализация текста — одно из лучших
решений. Это приведение всех слов текста к исходному виду.
В данной статье исследуется многоуровневая стратегия исправления ошибок в казахско- язычной
литературе, скачанной из Интернета. Из-за широкого использования социальных сетей в качестве
источника для лингвистических исследований исправление ошибок является критической проблемой.
Целью данного исследования было изучить текущий алгоритм наивного Байеса на английском языке, а
также нормализацию слов и предложений на естественных языках, чтобы создать аналогичный алгоритм
для казахского языка. Целью данной работы было изучение существующего алгоритма Наивного Байеса
на английском языке и нормализации слов и предложений на естественных языках, а также разработка
аналогичного алгоритма для казахского языка. Рассмотрены существующие алгоритмы извлечения основы
слова и возможные способы синтеза нормальной формы.
Рассмотрен метод морфологии казахских слов и их отличие от английских, пригодных для обработки
слов в словаре. В результате системы нормализации доказана эффективность данного метода для казахского
языка.

Загрузки

Опубликован

2022-09-15

Как цитировать

Tolegenova, A. (2022). A NAIVE BAYESIAN CLASSIFIER FOR NORMALIZATION OF TEXT: A CASE STUDY FOR KAZAKH LANGUAGE. МЕЖДУНАРОДНЫЙ ЖУРНАЛ ИНФОРМАЦИОННЫХ И КОММУНИКАЦИОННЫХ ТЕХНОЛОГИЙ, 3(3), 17–23. https://doi.org/10.54309/IJICT.2022.11.3.002

Выпуск

Раздел

РАЗРАБОТКА ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ И ИНЖЕНЕРИЯ ЗНАНИЙ
Loading...