ИНТЕЛЛЕКТУАЛДЫ КЛАСТЕРЛЕУ ӘДІСТЕРІН ҚОЛДАНА ОТЫРЫП, ҚЫСҚА МӘТІНДЕРДІ ТАЛДАУ
DOI:
https://doi.org/10.54309/IJICT.2025.22.2.002Аннотация
Это исследование представляет собой всесторонний анализ кластеризации коротких текстов с использованием передовых методов: Bidirectional Encoder Representations from Transformers (BERT), Term Frequency-Inverse Document Frequency (TF-IDF) и инновационного гибридного подхода Latent Dirichlet Allocation+BERT+Autoencoder (LDA+BERT+AE). Исследование начинается с описания теоретических основ каждого метода, а также анализа их преимуществ и ограничений. Рассматривается способность модели BERT понимать зависимость слов в тексте, в то время как TF-IDF отмечается за его эффективность в оценке важности терминов. В экспериментальном разделе проводится сравнение эффективности этих методов при кластеризации коротких текстов, при этом особое внимание уделяется гибридному подходу LDA+BERT+AE. Детальный анализ процесса обучения и проверки модели LDA-BERT в течение 200 эпох показывает, что значения функции потерь (loss values) изначально превышают 1.2, быстро снижаются до около 0.8 в течение первых 25 эпох, а затем стабилизируются примерно на уровне 0.4. Близкое расположение кривых обучения и проверки свидетельствует о высокой обобщающей способности модели и минимальном переобучении. Результаты исследования демонстрируют, что гибридный метод LDA+BERT+AE значительно повышает качество кластеризации текстов по сравнению с отдельно используемыми методами. На основе полученных данных сформулированы рекомендации по выбору и сочетанию оптимальных методов кластеризации для различных типов коротких текстов и задач обработки естественного языка (NLP). Кроме того, исследуется потенциальное применение данных методов в промышленных и академических средах, где эффективная обработка и категоризация текстов имеет ключевое значение. В заключение подчеркивается важность интегрированного подхода к анализу коротких текстов, способствующего более глубокому семантическому пониманию и улучшенному извлечению информации.
Скачивания
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Copyright (c) 2025 МЕЖДУНАРОДНЫЙ ЖУРНАЛ ИНФОРМАЦИОННЫХ И КОММУНИКАЦИОННЫХ ТЕХНОЛОГИЙ

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.
https://creativecommons.org/licenses/by-nc-nd/3.0/deed.en