ХАЛЫҚАPАЛЫҚ АҚПАРАТТЫҚ ЖӘНЕ КОММУНИКАЦИЯЛЫҚ ТЕХНОЛОГИЯЛАР ЖУРНАЛЫ

ӘРТҮРЛІ МАШИНАЛЫҚ ОҚЫТУ АЛГОРИТМДЕРІ АРҚЫЛЫ ҚҰЖАТТАРДЫ АВТОМАТТЫ ТАЛДАУ МОДЕЛІН ҚҰРУ

Авторлар

  • А.Г. Шаушенова
  • М.Ж. Базарова Восточно-Казахстанский университет имени С. Аманжолова
  • Ж.Ж. Ажибекова
  • С. Шадинова
  • К.С. Бакенова

DOI:

https://doi.org/10.54309/IJICT.2025.21.1.011

Аңдатпа

Бұл мақалада құжаттарды автоматты түрде талдауға арналған модель ұсынылған. Ол TF-IDF (Term Frequency-Inverse Document Frequency) әдісін әртүрлі машина оқыту алгоритмдерімен, соның ішінде SVM (Support Vector Machine), Random Forest және Word2Vec+SVM комбинациясымен үйлестіру негізінде құрылған. Зерттеудің мақсаты – мәтіндерді жіктеу міндеттерінде осы әдістердің тиімділігін салыстыру және ең нәтижелі тәсілді анықтау. Эксперименттік нәтижелер көрсеткендей, TF-IDF және Word2Vec комбинациясын SVM-пен бірге қолданатын гибридті модель ең жоғары дәлдік (90,2 %) және F1-score (82,52 %) көрсеткіштеріне қол жеткізді. TF-IDF әдісі мәтіндегі терминдердің маңыздылығын бағалауға мүмкіндік береді, ал Word2Vec сөздерді векторлық көрініске айналдырып, семантикалық сәйкестікті жақсартады. SVM алгоритмі деректерді тиімді сыныптарға бөлу үшін гипержазықтықтарды пайдаланады, ал Random Forest шешім ағаштары арқылы жіктеу сапасын арттырады. Сонымен қатар, зерттеу мәтіндерді алдын ала өңдеудің (токенизация, нормализация, стоп-сөздерді жою және лемматизация) маңыздылығын көрсетті. Бұл процестер жіктеу сапасын айтарлықтай жақсартуға ықпал етті. Ұсынылған модель ақпараттық іздеу, тақырыптық модельдеу және құжаттарды автоматты түрде рефераттау сияқты салаларда тиімділігі жоғары құрал ретінде қолданылуы мүмкін. Мұндай гибридті тәсілдер автоматты мәтін талдауының дәлдігі мен сенімділігін арттырып, көптілді ортаға бейімдеу және жаңа деректер көздерін қосу сияқты болашақ зерттеулер үшін перспективаларды ашады. Эксперименттік нәтижелер бұл тәсілдің тональдылықты талдау, құжаттарды санаттау және тақырыптық модельдеу сияқты күрделі тапсырмаларда тиімді жұмыс істейтінін дәлелдеді. Бұл зерттеу нәтижелері автоматты мәтін талдауы саласында жаңа шешімдерді іздеу және оларды тиімді қолдану бойынша маңызды қадам болып табылады.

##plugins.generic.usageStats.downloads##

Жүктеулер

Жарияланды

2025-03-15

Дәйексөзді қалай келтіруге болады

Шаушенова, А., Базарова, М., Ажибекова, Ж., Шадинова , К., & Бакенова , К. (2025). ӘРТҮРЛІ МАШИНАЛЫҚ ОҚЫТУ АЛГОРИТМДЕРІ АРҚЫЛЫ ҚҰЖАТТАРДЫ АВТОМАТТЫ ТАЛДАУ МОДЕЛІН ҚҰРУ. ХАЛЫҚАPАЛЫҚ АҚПАРАТТЫҚ ЖӘНЕ КОММУНИКАЦИЯЛЫҚ ТЕХНОЛОГИЯЛАР ЖУРНАЛЫ, 6(1), 156–169. https://doi.org/10.54309/IJICT.2025.21.1.011
Loading...