ОНТОЛОГИЯ ЖӘНЕ ІЗДЕУ МЕХАНИЗМДЕРІ АРҚЫЛЫ ҚАЗАҚ ТІЛІНДЕГІ ЭКСТРАКЦИЯЛЫҚ QA-ДАҒЫ СЕМАНТИКАЛЫҚ ТОЛЫҚТЫҚ

Мурат Айтимов; Гаухар Муратова; Жадыра Бисенбаева; Идеят Бапиев; Kassim Murizah

doi:10.54309/IJICT.2026.25.1.005

ОНТОЛОГИЯ ЖӘНЕ ІЗДЕУ МЕХАНИЗМДЕРІ АРҚЫЛЫ ҚАЗАҚ ТІЛІНДЕГІ ЭКСТРАКЦИЯЛЫҚ QA-ДАҒЫ СЕМАНТИКАЛЫҚ ТОЛЫҚТЫҚ

Авторы

М.Ж. Айтимов
Гаухар Муратова Кызылординский университет имени Коркыт ата
Ж.К. Бисенбаева
И.М. Бапиев
М. Кассим

DOI:

https://doi.org/10.54309/IJICT.2026.25.1.005

Аннотация

В статье представлено исследование методов извлечения ответов на вопросы (extractive QA) для мало-ресурсного казахского языка с применением онтологического обогащения и retrieval-augmentation. Разработан полный конвейер подготовки данных: автоматическое извлечение текста из PDF-учебника, очистка, разбиение на перекрывающиеся фрагменты, векторизация Sentence-BERT и индексирование в FAISS. С использованием GPT-4 создан набор из 350 финальных QA-пар. В эксперименте сравнивались четыре модели: mBERT-QA, XLM-RoBERTa-QA, XLM-RoBERTa-QA с онтологией и гибридная конфигурация Retrieval + XLM-RoBERTa-QA + Ontology. Оценка по метрикам EM, F1, BERTScore-F1, ROUGE-L и SemSim показала, что гибридные модели обеспечивают значительный прирост качества. Наилучший результат — F1 = 52,6 % — достигнут при использовании retrieval-augmentation и онтологического обогащения, что на 21 п.п. превышает baseline mBERT-QA. Полученные результаты демонстрируют эффективность семантического обогащения и поиска релевантных фрагментов для повышения точности extractive QA на казахском языке.

Скачивания

Данные скачивания пока недоступны.

Загрузки

PDF (Қазақ)

Опубликован

2026-03-30

Как цитировать

Айтимов , М., Муратова, Г., Бисенбаева , Ж., Бапиев , И., & Murizah , K. (2026). ОНТОЛОГИЯ ЖӘНЕ ІЗДЕУ МЕХАНИЗМДЕРІ АРҚЫЛЫ ҚАЗАҚ ТІЛІНДЕГІ ЭКСТРАКЦИЯЛЫҚ QA-ДАҒЫ СЕМАНТИКАЛЫҚ ТОЛЫҚТЫҚ. МЕЖДУНАРОДНЫЙ ЖУРНАЛ ИНФОРМАЦИОННЫХ И КОММУНИКАЦИОННЫХ ТЕХНОЛОГИЙ, 7(1), 76–88. https://doi.org/10.54309/IJICT.2026.25.1.005

Скачать ссылку

Выпуск

Том 7 № 1 (2026): МЕЖДУНАРОДНЫЙ ЖУРНАЛ ИНФОРМАЦИОННЫХ И КОММУНИКАЦИОННЫХ ТЕХНОЛОГИЙ

Раздел

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

Лицензия

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.

https://creativecommons.org/licenses/by-nc-nd/3.0/deed.en

МЕЖДУНАРОДНЫЙ ЖУРНАЛ ИНФОРМАЦИОННЫХ И КОММУНИКАЦИОННЫХ ТЕХНОЛОГИЙ

ОНТОЛОГИЯ ЖӘНЕ ІЗДЕУ МЕХАНИЗМДЕРІ АРҚЫЛЫ ҚАЗАҚ ТІЛІНДЕГІ ЭКСТРАКЦИЯЛЫҚ QA-ДАҒЫ СЕМАНТИКАЛЫҚ ТОЛЫҚТЫҚ

Авторы

DOI:

Аннотация

Скачивания

Загрузки

Опубликован

Как цитировать

Выпуск

Раздел

Лицензия

Наиболее читаемые статьи этого автора (авторов)