ҚАЗАҚ ТІЛІНДЕГІ МӘТІНДЕРДЕГІ ДУБЛИКАТТАРДЫ АНЫҚТАУ: TF-IDF, СӨЗ ЖӘНЕ СӨЙЛЕМ ЭМБЕДДИНГТЕРІН САЛЫСТЫРУ
##plugins.pubIds.doi.readerDisplayName##:
https://doi.org/10.54309/IJICT.2025.24.4.020Кілт сөздер:
дубликаттарды анықтау, қазақ тілі, TF-IDF, сөздік эмбеддингтер, сөйлемдік эмбеддингтер, семантикалық ұқсастық, BM25, тығыз іздеу (dense retrieval), гибридті қайта ранжирлеу, ресурсы шектеулі тілдер үшін NLPАңдатпа
Мақалада қазақ тіліндегі мәтін дубликаттарын автоматты түрде анықтау үшін TF-IDF, сөздік және көптілді сөйлем эмбеддингтері кешенді түрде салыстырылды. Эксперименттер KazakhTextDuplicates деректер жинағында жүргізілді, мұнда жұптар «нақты», «парафраз», «контекстік» және «ішінара» дубликат ретінде таңбаланған. Барлық модельдер бірыңғай эксперименттік ортада бағаланды: стандартталған алдын ала өңдеу, L2-нормаланған векторлар және валидация арқылы шек мәнін баптау. TF-IDF-пен салмақталған Word2Vec моделі ең жоғары нәтижелерге жетті (F1 = 0.996; ROC-AUC = 0.9999; PR-AUC = 0.9999). TF-IDF (1–3-грамма) әдісі нақты және ішінара сәйкестіктер үшін тиімді болды (PR-AUC = 0.932; ROC-AUC = 0.775), ал FastText жоғары толықтық (R ≈ 0.99) көрсетті. Көптілді модельдер арасында BGE-m3 және Snowflake Arctic PR-AUC бойынша үздік нәтижелерге (≈0.614) жетті. Іздеу міндетінде BM25 және кейінгі тығыз қайта ранжирлеу тәсілі тығыз іздеумен салыстырғанда аз болса да тұрақты өсім көрсетті (Recall@10: +0.04–0.12 п.б.; nDCG@10: +0.10–0.13 п.б.), бұл лексикалық және семантикалық белгілерді біріктірудің тиімділігін дәлелдейді.
##plugins.generic.usageStats.downloads##
Жүктеулер
Жарияланды
Дәйексөзді қалай келтіруге болады
Журналдың саны
Бөлім
Лицензия
Авторлық құқық (c) 2025 ХАЛЫҚАPАЛЫҚ АҚПАРАТТЫҚ ЖӘНЕ КОММУНИКАЦИЯЛЫҚ ТЕХНОЛОГИЯЛАР ЖУРНАЛЫ

Бұл жұмыс Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 Дүние жүзінде.
https://creativecommons.org/licenses/by-nc-nd/3.0/deed.en