ХАЛЫҚАPАЛЫҚ АҚПАРАТТЫҚ ЖӘНЕ КОММУНИКАЦИЯЛЫҚ ТЕХНОЛОГИЯЛАР ЖУРНАЛЫ

ҚАЗАҚ ТІЛІНДЕГІ МӘТІНДЕРДЕГІ ДУБЛИКАТТАРДЫ АНЫҚТАУ: TF-IDF, СӨЗ ЖӘНЕ СӨЙЛЕМ ЭМБЕДДИНГТЕРІН САЛЫСТЫРУ

Авторлар

  • Арайлым Тлеубаева Astana IT University
  • Светлана Белошицкая Astana IT University
  • Олександр Кучанский Astana IT University
  • Айдос Мухатаев Astana IT University
  • Дина Кантаева Astana IT University

##plugins.pubIds.doi.readerDisplayName##:

https://doi.org/10.54309/IJICT.2025.24.4.020

Кілт сөздер:

дубликаттарды анықтау, қазақ тілі, TF-IDF, сөздік эмбеддингтер, сөйлемдік эмбеддингтер, семантикалық ұқсастық, BM25, тығыз іздеу (dense retrieval), гибридті қайта ранжирлеу, ресурсы шектеулі тілдер үшін NLP

Аңдатпа

Мақалада қазақ тіліндегі мәтін дубликаттарын автоматты түрде анықтау үшін TF-IDF, сөздік және көптілді сөйлем эмбеддингтері кешенді түрде салыстырылды. Эксперименттер KazakhTextDuplicates деректер жинағында жүргізілді, мұнда жұптар «нақты», «парафраз», «контекстік» және «ішінара» дубликат ретінде таңбаланған. Барлық модельдер бірыңғай эксперименттік ортада бағаланды: стандартталған алдын ала өңдеу, L2-нормаланған векторлар және валидация арқылы шек мәнін баптау. TF-IDF-пен салмақталған Word2Vec моделі ең жоғары нәтижелерге жетті (F1 = 0.996; ROC-AUC = 0.9999; PR-AUC = 0.9999). TF-IDF (1–3-грамма) әдісі нақты және ішінара сәйкестіктер үшін тиімді болды (PR-AUC = 0.932; ROC-AUC = 0.775), ал FastText жоғары толықтық (R ≈ 0.99) көрсетті. Көптілді модельдер арасында BGE-m3 және Snowflake Arctic PR-AUC бойынша үздік нәтижелерге (≈0.614) жетті. Іздеу міндетінде BM25 және кейінгі тығыз қайта ранжирлеу тәсілі тығыз іздеумен салыстырғанда аз болса да тұрақты өсім көрсетті (Recall@10: +0.04–0.12 п.б.; nDCG@10: +0.10–0.13 п.б.), бұл лексикалық және семантикалық белгілерді біріктірудің тиімділігін дәлелдейді.

##plugins.generic.usageStats.downloads##

##plugins.generic.usageStats.noStats##

Автор өмірбаяндары

Арайлым Тлеубаева, Astana IT University

Тлеубаева Арайлым Орынбайқызы  — PhD докторант, «Жасанды интеллект және деректер ғылымы» мектебінің сеньор-лекторы, «Astana IT University» ЖШС.

Светлана Белошицкая , Astana IT University

Белошицкая Светлана Васильевна — техника ғылымдарының докторы, «Жасанды интеллект және деректер ғылымы» мектебініңпрофессоры, «Astana IT University» ЖШС.

Олександр Кучанский , Astana IT University

Кучанский Александр Юрьевич — техника ғылымдарының докторы, «Жасанды интеллект және деректер ғылымы» мектебінің профессоры, «Astana IT University» ЖШС.

Айдос Мухатаев , Astana IT University

Мухатаев Айдос Агдарбекович — Педагогика ғылымдарының кандидаты, «Жалпы білім беру пәндері» мектебінің профессоры, «Astana IT University» ЖШС.

Дина Кантаева , Astana IT University

Кантаева Дина Сериковна PhD докторант, «Стратегия және корпоративтік басқару» бөлімінің менеджері, «Astana IT University» ЖШС.

Жүктеулер

Жарияланды

2025-11-15

Дәйексөзді қалай келтіруге болады

Тлеубаева, А., Белошицкая , С., Кучанский , О., Мухатаев , А., & Кантаева , Д. (2025). ҚАЗАҚ ТІЛІНДЕГІ МӘТІНДЕРДЕГІ ДУБЛИКАТТАРДЫ АНЫҚТАУ: TF-IDF, СӨЗ ЖӘНЕ СӨЙЛЕМ ЭМБЕДДИНГТЕРІН САЛЫСТЫРУ. ХАЛЫҚАPАЛЫҚ АҚПАРАТТЫҚ ЖӘНЕ КОММУНИКАЦИЯЛЫҚ ТЕХНОЛОГИЯЛАР ЖУРНАЛЫ, 6(4), 333–350. https://doi.org/10.54309/IJICT.2025.24.4.020

##plugins.generic.recommendBySimilarity.heading##

1 2 3 4 5 6 7 8 9 10 > >> 

##plugins.generic.recommendBySimilarity.advancedSearchIntro##

Loading...