A NAIVE BAYESIAN CLASSIFIER FOR NORMALIZATION OF TEXT: A CASE STUDY FOR KAZAKH LANGUAGE
DOI:
https://doi.org/10.54309/IJICT.2022.11.3.002Ключевые слова:
нормализация текста, алгоритм наивного Байеса, естественный язык, обработка текста, классификатор.Аннотация
Количество сложных документов и текстов в последние годы увеличилось в геометрической
прогрессии, что требует более глубокого понимания технологий машинного обучения для эффективной
идентификации текстов в многочисленных приложениях. Нормализация текста — одно из лучших
решений. Это приведение всех слов текста к исходному виду.
В данной статье исследуется многоуровневая стратегия исправления ошибок в казахско- язычной
литературе, скачанной из Интернета. Из-за широкого использования социальных сетей в качестве
источника для лингвистических исследований исправление ошибок является критической проблемой.
Целью данного исследования было изучить текущий алгоритм наивного Байеса на английском языке, а
также нормализацию слов и предложений на естественных языках, чтобы создать аналогичный алгоритм
для казахского языка. Целью данной работы было изучение существующего алгоритма Наивного Байеса
на английском языке и нормализации слов и предложений на естественных языках, а также разработка
аналогичного алгоритма для казахского языка. Рассмотрены существующие алгоритмы извлечения основы
слова и возможные способы синтеза нормальной формы.
Рассмотрен метод морфологии казахских слов и их отличие от английских, пригодных для обработки
слов в словаре. В результате системы нормализации доказана эффективность данного метода для казахского
языка.
Скачивания
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Copyright (c) 2023 International Journal of Information and Communication Technologies
![Лицензия Creative Commons](http://i.creativecommons.org/l/by-nc-nd/4.0/88x31.png)
Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.
https://creativecommons.org/licenses/by-nc-nd/3.0/deed.en