A NAIVE BAYESIAN CLASSIFIER FOR NORMALIZATION OF TEXT: A CASE STUDY FOR KAZAKH LANGUAGE
DOI:
https://doi.org/10.54309/IJICT.2022.11.3.002Ключевые слова:
нормализация текста, алгоритм наивного Байеса, естественный язык, обработка текста, классификатор.Аннотация
Количество сложных документов и текстов в последние годы увеличилось в геометрической
прогрессии, что требует более глубокого понимания технологий машинного обучения для эффективной
идентификации текстов в многочисленных приложениях. Нормализация текста — одно из лучших
решений. Это приведение всех слов текста к исходному виду.
В данной статье исследуется многоуровневая стратегия исправления ошибок в казахско- язычной
литературе, скачанной из Интернета. Из-за широкого использования социальных сетей в качестве
источника для лингвистических исследований исправление ошибок является критической проблемой.
Целью данного исследования было изучить текущий алгоритм наивного Байеса на английском языке, а
также нормализацию слов и предложений на естественных языках, чтобы создать аналогичный алгоритм
для казахского языка. Целью данной работы было изучение существующего алгоритма Наивного Байеса
на английском языке и нормализации слов и предложений на естественных языках, а также разработка
аналогичного алгоритма для казахского языка. Рассмотрены существующие алгоритмы извлечения основы
слова и возможные способы синтеза нормальной формы.
Рассмотрен метод морфологии казахских слов и их отличие от английских, пригодных для обработки
слов в словаре. В результате системы нормализации доказана эффективность данного метода для казахского
языка.
Скачивания
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Copyright (c) 2023 International Journal of Information and Communication Technologies
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.
https://creativecommons.org/licenses/by-nc-nd/3.0/deed.en