МЕЖДУНАРОДНЫЙ ЖУРНАЛ ИНФОРМАЦИОННЫХ И КОММУНИКАЦИОННЫХ ТЕХНОЛОГИЙ

ƏРТҮРЛІ МАШИНАЛЫҚ ОҚЫТУ АЛГОРИТМДЕРІ АРҚЫЛЫ ҚҰЖАТТАРДЫ АВТОМАТТЫ ТАЛДАУ МОДЕЛІН ҚҰРУ

Авторы

  • А.Г. Шаушенова
  • М.Ж. Базарова Восточно-Казахстанский университет имени С. Аманжолова
  • Ж.Ж. Ажибекова
  • С. Шадинова
  • К.С. Бакенова

DOI:

https://doi.org/10.54309/IJICT.2025.21.1.011

Аннотация

В данной статье представлена модель для автоматического анализа документов. Она основана на методе TF-IDF (Term Frequency-Inverse Document Frequency), комбинированном с различными алгоритмами машинного обучения, включая SVM (Support Vector Machine), Random Forest и Word2Vec+SVM. Цель исследования – сравнить эффективность данных методов в задачах классификации текстов и выявить наиболее результативный подход. Экспериментальные результаты показали, что гибридная модель, использующая комбинацию TF-IDF и Word2Vec с SVM, достигла наивысшей точности (90,2 %) и F1-score (82,52 %). Метод TF-IDF позволяет оценивать значимость терминов в тексте, в то время как Word2Vec преобразует слова в векторное представление, улучшая семантическое соответствие. Алгоритм SVM эффективно разделяет данные на классы с помощью гиперплоскостей, а Random Forest улучшает качество классификации за счёт использования ансамбля решающих деревьев. Кроме того, исследование подтвердило важность предварительной обработки текста (токенизация, нормализация, удаление стоп-слов и лемматизация), которая значительно повышает качество классификации. Предложенная модель может быть применена в таких областях, как информационный поиск, тематическое моделирование и автоматическое реферирование документов. Такие гибридные подходы повышают точность и надёжность автоматического анализа текста, открывая перспективы для адаптации в многоязычной среде и добавления новых источников данных. Экспериментальные результаты доказали эффективность данного подхода для решения сложных задач, таких как анализ тональности, категоризация документов и тематическое моделирование. Данное исследование является важным шагом на пути к созданию новых решений в области автоматического анализа текста.

Скачивания

Загрузки

Опубликован

2025-03-15

Как цитировать

Шаушенова, А., Базарова, М., Ажибекова, Ж., Шадинова , К., & Бакенова , К. (2025). ƏРТҮРЛІ МАШИНАЛЫҚ ОҚЫТУ АЛГОРИТМДЕРІ АРҚЫЛЫ ҚҰЖАТТАРДЫ АВТОМАТТЫ ТАЛДАУ МОДЕЛІН ҚҰРУ. МЕЖДУНАРОДНЫЙ ЖУРНАЛ ИНФОРМАЦИОННЫХ И КОММУНИКАЦИОННЫХ ТЕХНОЛОГИЙ, 6(1), 156–169. https://doi.org/10.54309/IJICT.2025.21.1.011
Loading...