МЕЖДУНАРОДНЫЙ ЖУРНАЛ ИНФОРМАЦИОННЫХ И КОММУНИКАЦИОННЫХ ТЕХНОЛОГИЙ

ИНТЕЛЛЕКТУАЛДЫ КЛАСТЕРЛЕУ ӘДІСТЕРІН ҚОЛДАНА ОТЫРЫП, ҚЫСҚА МӘТІНДЕРДІ ТАЛДАУ

Авторы

  • А.С. Баегизова
  • Г.Е. Мырзабекова Казахский агротехнический исследовательский университет имени С. Сейфуллина
  • А.З. Алимагамбетова
  • Г.И. Мухамедрахимова
  • М. Кассим MARA технологиялар университеті, Малайзия

DOI:

https://doi.org/10.54309/IJICT.2025.22.2.002

Аннотация

Это исследование представляет собой всесторонний анализ кластеризации коротких текстов с использованием передовых методов: Bidirectional Encoder Representations from Transformers (BERT), Term Frequency-Inverse Document Frequency (TF-IDF) и инновационного гибридного подхода Latent Dirichlet Allocation+BERT+Autoencoder (LDA+BERT+AE). Исследование начинается с описания теоретических основ каждого метода, а также анализа их преимуществ и ограничений. Рассматривается способность модели BERT понимать зависимость слов в тексте, в то время как TF-IDF отмечается за его эффективность в оценке важности терминов. В экспериментальном разделе проводится сравнение эффективности этих методов при кластеризации коротких текстов, при этом особое внимание уделяется гибридному подходу LDA+BERT+AE. Детальный анализ процесса обучения и проверки модели LDA-BERT в течение 200 эпох показывает, что значения функции потерь (loss values) изначально превышают 1.2, быстро снижаются до около 0.8 в течение первых 25 эпох, а затем стабилизируются примерно на уровне 0.4. Близкое расположение кривых обучения и проверки свидетельствует о высокой обобщающей способности модели и минимальном переобучении. Результаты исследования демонстрируют, что гибридный метод LDA+BERT+AE значительно повышает качество кластеризации текстов по сравнению с отдельно используемыми методами. На основе полученных данных сформулированы рекомендации по выбору и сочетанию оптимальных методов кластеризации для различных типов коротких текстов и задач обработки естественного языка (NLP). Кроме того, исследуется потенциальное применение данных методов в промышленных и академических средах, где эффективная обработка и категоризация текстов имеет ключевое значение. В заключение подчеркивается важность интегрированного подхода к анализу коротких текстов, способствующего более глубокому семантическому пониманию и улучшенному извлечению информации.   

Скачивания

Данные скачивания пока недоступны.

Загрузки

Опубликован

2025-06-15

Как цитировать

Баегизова , А., Мырзабекова, Г., Алимагамбетова, А., Мухамедрахимова , Г., & М. Кассим. (2025). ИНТЕЛЛЕКТУАЛДЫ КЛАСТЕРЛЕУ ӘДІСТЕРІН ҚОЛДАНА ОТЫРЫП, ҚЫСҚА МӘТІНДЕРДІ ТАЛДАУ. МЕЖДУНАРОДНЫЙ ЖУРНАЛ ИНФОРМАЦИОННЫХ И КОММУНИКАЦИОННЫХ ТЕХНОЛОГИЙ, 6(2), 23–36. https://doi.org/10.54309/IJICT.2025.22.2.002
Loading...