DETECTING DUPLICATES IN KAZAKH TEXTS: A COMPARISON OF TF-IDF, WORD AND SENTENCE EMBEDDINGS
DOI:
https://doi.org/10.54309/IJICT.2025.24.4.020Ключевые слова:
обнаружение дубликатов, казахский язык, TF-IDF, эмбеддинги слов, эмбеддинги предложений, семантическое сходство, BM25, плотный поиск (dense retrieval), гибридный переранжиринг, NLP для низкоресурсных языковАннотация
В статье представлен всесторонний сравнительный анализ методов TF-IDF, словарных и многоязычных эмбеддингов предложений для автоматического обнаружения дубликатов в казахских текстах. Эксперименты проведены на датасете KazakhTextDuplicates, включающем пары с метками «точный», «парафраз», «контекстуальный» и «частичный» дубликат. Все модели оценивались в единой экспериментальной схеме с унифицированной предобработкой, L2-нормированными векторными представлениями и подбором порога по валидационной выборке. Модель Word2Vec с TF-IDF-взвешиванием показала наилучшие результаты (F1 = 0.996; ROC-AUC = 0.9999; PR-AUC = 0.9999). Метод TF-IDF (1–3-граммы) продемонстрировал высокую точность для точных и частичных совпадений (PR-AUC = 0.932; ROC-AUC = 0.775), тогда как FastText обеспечил максимальную полноту (R ≈ 0.99) при умеренной точности. Среди многоязычных моделей лучшие показатели PR-AUC (≈0.614) получены для BGE-m3 и Snowflake Arctic. В задаче поиска дубликатов гибридная схема BM25 с последующим плотным переранжированием обеспечила небольшой, но стабильный прирост по сравнению с плотным поиском (Recall@10: +0.04–0.12 п.п.; nDCG@10: +0.10–0.13 п.п.), что подтверждает эффективность сочетания лексических и семантических признаков для морфологически сложных, низкоресурсных языков.
Скачивания
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Copyright (c) 2025 МЕЖДУНАРОДНЫЙ ЖУРНАЛ ИНФОРМАЦИОННЫХ И КОММУНИКАЦИОННЫХ ТЕХНОЛОГИЙ

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.
https://creativecommons.org/licenses/by-nc-nd/3.0/deed.en