A NAIVE BAYESIAN CLASSIFIER FOR NORMALIZATION OF TEXT: A CASE STUDY FOR KAZAKH LANGUAGE

Assylay Tolegenova

doi:10.54309/IJICT.2022.11.3.002

МЕЖДУНАРОДНЫЙ ЖУРНАЛ ИНФОРМАЦИОННЫХ И КОММУНИКАЦИОННЫХ ТЕХНОЛОГИЙ

A NAIVE BAYESIAN CLASSIFIER FOR NORMALIZATION OF TEXT: A CASE STUDY FOR KAZAKH LANGUAGE

Авторы

Tolegenova A. Suleyman Demirel University

DOI:

https://doi.org/10.54309/IJICT.2022.11.3.002

Ключевые слова:

нормализация текста, алгоритм наивного Байеса, естественный язык, обработка текста, классификатор.

Аннотация

Количество сложных документов и текстов в последние годы увеличилось в геометрической
прогрессии, что требует более глубокого понимания технологий машинного обучения для эффективной
идентификации текстов в многочисленных приложениях. Нормализация текста — одно из лучших
решений. Это приведение всех слов текста к исходному виду.
В данной статье исследуется многоуровневая стратегия исправления ошибок в казахско- язычной
литературе, скачанной из Интернета. Из-за широкого использования социальных сетей в качестве
источника для лингвистических исследований исправление ошибок является критической проблемой.
Целью данного исследования было изучить текущий алгоритм наивного Байеса на английском языке, а
также нормализацию слов и предложений на естественных языках, чтобы создать аналогичный алгоритм
для казахского языка. Целью данной работы было изучение существующего алгоритма Наивного Байеса
на английском языке и нормализации слов и предложений на естественных языках, а также разработка
аналогичного алгоритма для казахского языка. Рассмотрены существующие алгоритмы извлечения основы
слова и возможные способы синтеза нормальной формы.
Рассмотрен метод морфологии казахских слов и их отличие от английских, пригодных для обработки
слов в словаре. В результате системы нормализации доказана эффективность данного метода для казахского
языка.

Скачивания

Данные скачивания пока недоступны.

Загрузки

Опубликован

2022-09-15

Как цитировать

Tolegenova, A. (2022). A NAIVE BAYESIAN CLASSIFIER FOR NORMALIZATION OF TEXT: A CASE STUDY FOR KAZAKH LANGUAGE. МЕЖДУНАРОДНЫЙ ЖУРНАЛ ИНФОРМАЦИОННЫХ И КОММУНИКАЦИОННЫХ ТЕХНОЛОГИЙ, 3(3), 17–23. https://doi.org/10.54309/IJICT.2022.11.3.002

Скачать ссылку

Выпуск

Том 3 № 3 (2022): МЕЖДУНАРОДНЫЙ ЖУРНАЛ ИНФОРМАЦИОННЫХ И КОММУНИКАЦИОННЫХ ТЕХНОЛОГИЙ

Раздел

РАЗРАБОТКА ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ И ИНЖЕНЕРИЯ ЗНАНИЙ

Лицензия

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.

https://creativecommons.org/licenses/by-nc-nd/3.0/deed.en

МЕЖДУНАРОДНЫЙ ЖУРНАЛ ИНФОРМАЦИОННЫХ И КОММУНИКАЦИОННЫХ ТЕХНОЛОГИЙ

A NAIVE BAYESIAN CLASSIFIER FOR NORMALIZATION OF TEXT: A CASE STUDY FOR KAZAKH LANGUAGE

Авторы

DOI:

Ключевые слова:

Аннотация

Скачивания

Загрузки

Опубликован

Как цитировать

Выпуск

Раздел

Лицензия

Похожие статьи