ƏРТҮРЛІ МАШИНАЛЫҚ ОҚЫТУ АЛГОРИТМДЕРІ АРҚЫЛЫ ҚҰЖАТТАРДЫ АВТОМАТТЫ ТАЛДАУ МОДЕЛІН ҚҰРУ
DOI:
https://doi.org/10.54309/IJICT.2025.21.1.011Аннотация
В данной статье представлена модель для автоматического анализа документов. Она основана на методе TF-IDF (Term Frequency-Inverse Document Frequency), комбинированном с различными алгоритмами машинного обучения, включая SVM (Support Vector Machine), Random Forest и Word2Vec+SVM. Цель исследования – сравнить эффективность данных методов в задачах классификации текстов и выявить наиболее результативный подход. Экспериментальные результаты показали, что гибридная модель, использующая комбинацию TF-IDF и Word2Vec с SVM, достигла наивысшей точности (90,2 %) и F1-score (82,52 %). Метод TF-IDF позволяет оценивать значимость терминов в тексте, в то время как Word2Vec преобразует слова в векторное представление, улучшая семантическое соответствие. Алгоритм SVM эффективно разделяет данные на классы с помощью гиперплоскостей, а Random Forest улучшает качество классификации за счёт использования ансамбля решающих деревьев. Кроме того, исследование подтвердило важность предварительной обработки текста (токенизация, нормализация, удаление стоп-слов и лемматизация), которая значительно повышает качество классификации. Предложенная модель может быть применена в таких областях, как информационный поиск, тематическое моделирование и автоматическое реферирование документов. Такие гибридные подходы повышают точность и надёжность автоматического анализа текста, открывая перспективы для адаптации в многоязычной среде и добавления новых источников данных. Экспериментальные результаты доказали эффективность данного подхода для решения сложных задач, таких как анализ тональности, категоризация документов и тематическое моделирование. Данное исследование является важным шагом на пути к созданию новых решений в области автоматического анализа текста.
Скачивания
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Copyright (c) 2025 МЕЖДУНАРОДНЫЙ ЖУРНАЛ ИНФОРМАЦИОННЫХ И КОММУНИКАЦИОННЫХ ТЕХНОЛОГИЙ

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.
https://creativecommons.org/licenses/by-nc-nd/3.0/deed.en