ХАЛЫҚАPАЛЫҚ АҚПАРАТТЫҚ ЖӘНЕ КОММУНИКАЦИЯЛЫҚ ТЕХНОЛОГИЯЛАР ЖУРНАЛЫ

ИНТЕЛЛЕКТУАЛДЫ КЛАСТЕРЛЕУ ӘДІСТЕРІН ҚОЛДАНА ОТЫРЫП, ҚЫСҚА МӘТІНДЕРДІ ТАЛДАУ

Авторлар

  • А.С. Баегизова
  • Г.Е. Мырзабекова Казахский агротехнический исследовательский университет имени С. Сейфуллина
  • А.З. Алимагамбетова
  • Г.И. Мухамедрахимова
  • М. Кассим MARA технологиялар университеті, Малайзия

##plugins.pubIds.doi.readerDisplayName##:

https://doi.org/10.54309/IJICT.2025.22.2.002

Аңдатпа

Бұл зерттеу қысқа мәтіндерді кластерлеудің терең талдауын ұсынады, ол озық әдістерді қолдану арқылы жүзеге асырылады: Bidirectional Encoder Representations from Transformers (BERT), Term Frequency-Inverse Document Frequency (TF-IDF) және инновациялық гибридті әдіс Latent Dirichlet Allocation+BERT+Autoencoder (LDA+BERT+AE). Зерттеу әрбір әдістің теориялық негіздерін сипаттаудан басталып, олардың артықшылықтары мен шектеулерін қарастырады. BERT моделінің мәтіндегі сөз тәуелділіктерін түсіну қабілеті зерттелсе, TF-IDF әдісінің терминдердің маңыздылығын бағалаудағы тиімділігі атап өтіледі. Эксперименттік бөлімде осы әдістердің қысқа мәтіндерді кластерлеу тиімділігі салыстырылады, әсіресе LDA+BERT+AE гибридті тәсіліне ерекше назар аударылады. LDA-BERT моделін 200 эпох бойы оқыту және тексеру барысында жоғалту функциясының мәндері (loss values) бастапқыда 1.2-ден жоғары болып, алғашқы 25 эпох ішінде тез төмендеп, шамамен 0.8 деңгейіне жетеді және ақырында 0.4 шамасында тұрақталады. Жаттығу мен тексеру қисықтарының бір-біріне жақын болуы модельдің жалпылау қабілетінің жоғары екенін және артық сәйкестендірудің (overfitting) төмен екенін көрсетеді. Зерттеу нәтижелері LDA+BERT+AE гибридті әдісі жеке қолданылған әдістерге қарағанда кластерлеу сапасын едәуір жақсартатынын көрсетеді. Алынған нәтижелер негізінде қысқа мәтіндерді кластерлеудің әртүрлі түрлері мен табиғи тілдік өңдеу (NLP) тапсырмалары үшін оңтайлы әдістерді таңдау және үйлестіру бойынша ұсыныстар беріледі. Сондай-ақ, бұл әдістердің өнеркәсіптік және ғылыми ортада тиімді мәтін өңдеу мен жіктеу үшін қолдану мүмкіндіктері қарастырылады. Зерттеу қысқа мәтіндерді кешенді талдау әдісінің маңыздылығын, оның терең семантикалық түсінуді арттыру және ақпаратты жақсырақ алу үшін қажеттілігін ерекше атап көрсетеді.

##plugins.generic.usageStats.downloads##

##plugins.generic.usageStats.noStats##

Жүктеулер

Жарияланды

2025-06-15

Дәйексөзді қалай келтіруге болады

Баегизова , А., Мырзабекова, Г., Алимагамбетова, А., Мухамедрахимова , Г., & М. Кассим. (2025). ИНТЕЛЛЕКТУАЛДЫ КЛАСТЕРЛЕУ ӘДІСТЕРІН ҚОЛДАНА ОТЫРЫП, ҚЫСҚА МӘТІНДЕРДІ ТАЛДАУ . ХАЛЫҚАPАЛЫҚ АҚПАРАТТЫҚ ЖӘНЕ КОММУНИКАЦИЯЛЫҚ ТЕХНОЛОГИЯЛАР ЖУРНАЛЫ, 6(2), 23–36. https://doi.org/10.54309/IJICT.2025.22.2.002
Loading...