ИНТЕЛЛЕКТУАЛДЫ КЛАСТЕРЛЕУ ӘДІСТЕРІН ҚОЛДАНА ОТЫРЫП, ҚЫСҚА МӘТІНДЕРДІ ТАЛДАУ
##plugins.pubIds.doi.readerDisplayName##:
https://doi.org/10.54309/IJICT.2025.22.2.002Аңдатпа
Бұл зерттеу қысқа мәтіндерді кластерлеудің терең талдауын ұсынады, ол озық әдістерді қолдану арқылы жүзеге асырылады: Bidirectional Encoder Representations from Transformers (BERT), Term Frequency-Inverse Document Frequency (TF-IDF) және инновациялық гибридті әдіс Latent Dirichlet Allocation+BERT+Autoencoder (LDA+BERT+AE). Зерттеу әрбір әдістің теориялық негіздерін сипаттаудан басталып, олардың артықшылықтары мен шектеулерін қарастырады. BERT моделінің мәтіндегі сөз тәуелділіктерін түсіну қабілеті зерттелсе, TF-IDF әдісінің терминдердің маңыздылығын бағалаудағы тиімділігі атап өтіледі. Эксперименттік бөлімде осы әдістердің қысқа мәтіндерді кластерлеу тиімділігі салыстырылады, әсіресе LDA+BERT+AE гибридті тәсіліне ерекше назар аударылады. LDA-BERT моделін 200 эпох бойы оқыту және тексеру барысында жоғалту функциясының мәндері (loss values) бастапқыда 1.2-ден жоғары болып, алғашқы 25 эпох ішінде тез төмендеп, шамамен 0.8 деңгейіне жетеді және ақырында 0.4 шамасында тұрақталады. Жаттығу мен тексеру қисықтарының бір-біріне жақын болуы модельдің жалпылау қабілетінің жоғары екенін және артық сәйкестендірудің (overfitting) төмен екенін көрсетеді. Зерттеу нәтижелері LDA+BERT+AE гибридті әдісі жеке қолданылған әдістерге қарағанда кластерлеу сапасын едәуір жақсартатынын көрсетеді. Алынған нәтижелер негізінде қысқа мәтіндерді кластерлеудің әртүрлі түрлері мен табиғи тілдік өңдеу (NLP) тапсырмалары үшін оңтайлы әдістерді таңдау және үйлестіру бойынша ұсыныстар беріледі. Сондай-ақ, бұл әдістердің өнеркәсіптік және ғылыми ортада тиімді мәтін өңдеу мен жіктеу үшін қолдану мүмкіндіктері қарастырылады. Зерттеу қысқа мәтіндерді кешенді талдау әдісінің маңыздылығын, оның терең семантикалық түсінуді арттыру және ақпаратты жақсырақ алу үшін қажеттілігін ерекше атап көрсетеді.
##plugins.generic.usageStats.downloads##
Жүктеулер
Жарияланды
Дәйексөзді қалай келтіруге болады
Журналдың саны
Бөлім
Лицензия
Авторлық құқық (c) 2025 ХАЛЫҚАPАЛЫҚ АҚПАРАТТЫҚ ЖӘНЕ КОММУНИКАЦИЯЛЫҚ ТЕХНОЛОГИЯЛАР ЖУРНАЛЫ

Бұл жұмыс Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 Дүние жүзінде.
https://creativecommons.org/licenses/by-nc-nd/3.0/deed.en