МЕЖДУНАРОДНЫЙ ЖУРНАЛ ИНФОРМАЦИОННЫХ И КОММУНИКАЦИОННЫХ ТЕХНОЛОГИЙ

DETECTING DUPLICATES IN KAZAKH TEXTS: A COMPARISON OF TF-IDF, WORD AND SENTENCE EMBEDDINGS

Авторы

  • A.O. Tleubayeva Astana IT University
  • S.V. Biloshchytskа Astana IT University
  • O. Kuchanskyi Astana IT University
  • A.A. Mukhatayev Astana IT University
  • A.B. Nugumanovа Astana IT University

DOI:

https://doi.org/10.54309/IJICT.2025.24.4.020

Ключевые слова:

обнаружение дубликатов, казахский язык, TF-IDF, эмбеддинги слов, эмбеддинги предложений, семантическое сходство, BM25, плотный поиск (dense retrieval), гибридный переранжиринг, NLP для низкоресурсных языков

Аннотация

В статье представлен всесторонний сравнительный анализ методов TF-IDF, словарных и многоязычных эмбеддингов предложений для автоматического обнаружения дубликатов в казахских текстах. Эксперименты проведены на датасете KazakhTextDuplicates, включающем пары с метками «точный», «парафраз», «контекстуальный» и «частичный» дубликат. Все модели оценивались в единой экспериментальной схеме с унифицированной предобработкой, L2-нормированными векторными представлениями и подбором порога по валидационной выборке. Модель Word2Vec с TF-IDF-взвешиванием показала наилучшие результаты (F1 = 0.996; ROC-AUC = 0.9999; PR-AUC = 0.9999). Метод TF-IDF (1–3-граммы) продемонстрировал высокую точность для точных и частичных совпадений (PR-AUC = 0.932; ROC-AUC = 0.775), тогда как FastText обеспечил максимальную полноту (R ≈ 0.99) при умеренной точности. Среди многоязычных моделей лучшие показатели PR-AUC (≈0.614) получены для BGE-m3 и Snowflake Arctic. В задаче поиска дубликатов гибридная схема BM25 с последующим плотным переранжированием обеспечила небольшой, но стабильный прирост по сравнению с плотным поиском (Recall@10: +0.04–0.12 п.п.; nDCG@10: +0.10–0.13 п.п.), что подтверждает эффективность сочетания лексических и семантических признаков для морфологически сложных, низкоресурсных языков.

Скачивания

Данные скачивания пока недоступны.

Биографии авторов

A.O. Tleubayeva, Astana IT University

Тлеубаева Арайлым Орынбайкызы  — PhD докторант, сеньор-лектор «Школы искусственного интеллекта и науки о данных», Astana ITUniversity.

S.V. Biloshchytskа, Astana IT University

Белошицкая Светлана Васильевна — доктор технических наук, профессор Школы искусственного интеллекта и науки о данных АО «AstanaIT University».

 

O. Kuchanskyi, Astana IT University

Кучанский Олександр Юрьевич — доктор технических наук, профессор  «Школы искусственного интеллекта и науки о данных», Astana ITUniversity.

A.A. Mukhatayev, Astana IT University

Мухатаев Айдос Агдарбекович — кандидат педагогических наук, профессор «Школы общеобразовательных дисциплин», Astana ITUniversity.

A.B. Nugumanovа, Astana IT University

Кантаева Дина Сериковна — PhD докторант, менеджер Отдела стратегии и корпоративного управления, Astana IT University.

Загрузки

Опубликован

2025-12-01

Как цитировать

Тлеубаева, А., Белошицкая , С., Кучанский , О., Мухатаев , А., & Кантаева , Д. (2025). DETECTING DUPLICATES IN KAZAKH TEXTS: A COMPARISON OF TF-IDF, WORD AND SENTENCE EMBEDDINGS. МЕЖДУНАРОДНЫЙ ЖУРНАЛ ИНФОРМАЦИОННЫХ И КОММУНИКАЦИОННЫХ ТЕХНОЛОГИЙ, 6(4), 333–350. https://doi.org/10.54309/IJICT.2025.24.4.020

Похожие статьи

1 2 3 4 5 6 7 8 9 10 > >> 

Вы также можете начать расширеннвй поиск похожих статей для этой статьи.

Loading...