ХАЛЫҚАPАЛЫҚ АҚПАРАТТЫҚ ЖӘНЕ КОММУНИКАЦИЯЛЫҚ ТЕХНОЛОГИЯЛАР ЖУРНАЛЫ

ҚАЗАҚ ТІЛІНДЕГІ МӘТІНДЕРДЕГІ ДУБЛИКАТТАРДЫ АНЫҚТАУ: TF-IDF, СӨЗ ЖӘНЕ СӨЙЛЕМ ЭМБЕДДИНГТЕРІН САЛЫСТЫРУ

Авторлар

  • Арайлым Тлеубаева Astana IT University
  • Светлана Белошицкая Astana IT University
  • Олександр Кучанский Astana IT University
  • Айдос Мухатаев Astana IT University
  • A.B. Nugumanovа A.B. Nugumanovа Astana IT University

##plugins.pubIds.doi.readerDisplayName##:

https://doi.org/10.54309/IJICT.2025.24.4.020

Кілт сөздер:

дубликаттарды анықтау, қазақ тілі, TF-IDF, сөздік эмбеддингтер, сөйлемдік эмбеддингтер, семантикалық ұқсастық, BM25, тығыз іздеу (dense retrieval), гибридті қайта ранжирлеу, ресурсы шектеулі тілдер үшін NLP

Аңдатпа

Мақалада қазақ тіліндегі мәтін дубликаттарын автоматты түрде анықтау үшін TF-IDF, сөздік және көптілді сөйлем эмбеддингтері кешенді түрде салыстырылды. Эксперименттер KazakhTextDuplicates деректер жинағында жүргізілді, мұнда жұптар «нақты», «парафраз», «контекстік» және «ішінара» дубликат ретінде таңбаланған. Барлық модельдер бірыңғай эксперименттік ортада бағаланды: стандартталған алдын ала өңдеу, L2-нормаланған векторлар және валидация арқылы шек мәнін баптау. TF-IDF-пен салмақталған Word2Vec моделі ең жоғары нәтижелерге жетті (F1 = 0.996; ROC-AUC = 0.9999; PR-AUC = 0.9999). TF-IDF (1–3-грамма) әдісі нақты және ішінара сәйкестіктер үшін тиімді болды (PR-AUC = 0.932; ROC-AUC = 0.775), ал FastText жоғары толықтық (R ≈ 0.99) көрсетті. Көптілді модельдер арасында BGE-m3 және Snowflake Arctic PR-AUC бойынша үздік нәтижелерге (≈0.614) жетті. Іздеу міндетінде BM25 және кейінгі тығыз қайта ранжирлеу тәсілі тығыз іздеумен салыстырғанда аз болса да тұрақты өсім көрсетті (Recall@10: +0.04–0.12 п.б.; nDCG@10: +0.10–0.13 п.б.), бұл лексикалық және семантикалық белгілерді біріктірудің тиімділігін дәлелдейді.

##plugins.generic.usageStats.downloads##

##plugins.generic.usageStats.noStats##

Автор өмірбаяндары

Арайлым Тлеубаева, Astana IT University

Тлеубаева Арайлым Орынбайқызы  — PhD докторант, «Жасанды интеллект және деректер ғылымы» мектебінің сеньор-лекторы, «Astana IT University» ЖШС.

Светлана Белошицкая , Astana IT University

Белошицкая Светлана Васильевна — техника ғылымдарының докторы, «Жасанды интеллект және деректер ғылымы» мектебініңпрофессоры, «Astana IT University» ЖШС.

Олександр Кучанский , Astana IT University

Кучанский Александр Юрьевич — техника ғылымдарының докторы, «Жасанды интеллект және деректер ғылымы» мектебінің профессоры, «Astana IT University» ЖШС.

Айдос Мухатаев , Astana IT University

Мухатаев Айдос Агдарбекович — Педагогика ғылымдарының кандидаты, «Жалпы білім беру пәндері» мектебінің профессоры, «Astana IT University» ЖШС.

A.B. Nugumanovа A.B. Nugumanovа, Astana IT University

Кантаева Дина Сериковна PhD докторант, «Стратегия және корпоративтік басқару» бөлімінің менеджері, «Astana IT University» ЖШС.

Жүктеулер

Жарияланды

2025-11-15

Дәйексөзді қалай келтіруге болады

Тлеубаева, А., Белошицкая , С., Кучанский , О., Мухатаев , А., & A.B. Nugumanovа A. N. (2025). ҚАЗАҚ ТІЛІНДЕГІ МӘТІНДЕРДЕГІ ДУБЛИКАТТАРДЫ АНЫҚТАУ: TF-IDF, СӨЗ ЖӘНЕ СӨЙЛЕМ ЭМБЕДДИНГТЕРІН САЛЫСТЫРУ. ХАЛЫҚАPАЛЫҚ АҚПАРАТТЫҚ ЖӘНЕ КОММУНИКАЦИЯЛЫҚ ТЕХНОЛОГИЯЛАР ЖУРНАЛЫ, 6(4), 333–350. https://doi.org/10.54309/IJICT.2025.24.4.020

##plugins.generic.recommendBySimilarity.heading##

1 2 3 4 5 6 7 8 9 10 > >> 

##plugins.generic.recommendBySimilarity.advancedSearchIntro##

Loading...