МЕЖДУНАРОДНЫЙ ЖУРНАЛ ИНФОРМАЦИОННЫХ И КОММУНИКАЦИОННЫХ ТЕХНОЛОГИЙ

ОНТОЛОГИЯ ЖӘНЕ ІЗДЕУ МЕХАНИЗМДЕРІ АРҚЫЛЫ ҚАЗАҚ ТІЛІНДЕГІ ЭКСТРАКЦИЯЛЫҚ QA-ДАҒЫ СЕМАНТИКАЛЫҚ ТОЛЫҚТЫҚ

Авторы

  • М.Ж. Айтимов
  • Гаухар Муратова Кызылординский университет имени Коркыт ата
  • Ж.К. Бисенбаева
  • И.М. Бапиев
  • М. Кассим

DOI:

https://doi.org/10.54309/IJICT.2026.25.1.005

Аннотация

В статье представлено исследование методов извлечения ответов на вопросы (extractive QA) для мало-ресурсного казахского языка с применением онтологического обогащения и retrieval-augmentation. Разработан полный конвейер подготовки данных: автоматическое извлечение текста из PDF-учебника, очистка, разбиение на перекрывающиеся фрагменты, векторизация Sentence-BERT и индексирование в FAISS. С использованием GPT-4 создан набор из 350 финальных QA-пар. В эксперименте сравнивались четыре модели: mBERT-QA, XLM-RoBERTa-QA, XLM-RoBERTa-QA с онтологией и гибридная конфигурация Retrieval + XLM-RoBERTa-QA + Ontology. Оценка по метрикам EM, F1, BERTScore-F1, ROUGE-L и SemSim показала, что гибридные модели обеспечивают значительный прирост качества. Наилучший результат — F1 = 52,6 % — достигнут при использовании retrieval-augmentation и онтологического обогащения, что на 21 п.п. превышает baseline mBERT-QA. Полученные результаты демонстрируют эффективность семантического обогащения и поиска релевантных фрагментов для повышения точности extractive QA на казахском языке.

Скачивания

Данные скачивания пока недоступны.

Загрузки

Опубликован

2026-03-30

Как цитировать

Айтимов , М., Муратова, Г., Бисенбаева , Ж., Бапиев , И., & Murizah , K. (2026). ОНТОЛОГИЯ ЖӘНЕ ІЗДЕУ МЕХАНИЗМДЕРІ АРҚЫЛЫ ҚАЗАҚ ТІЛІНДЕГІ ЭКСТРАКЦИЯЛЫҚ QA-ДАҒЫ СЕМАНТИКАЛЫҚ ТОЛЫҚТЫҚ. МЕЖДУНАРОДНЫЙ ЖУРНАЛ ИНФОРМАЦИОННЫХ И КОММУНИКАЦИОННЫХ ТЕХНОЛОГИЙ, 7(1), 76–88. https://doi.org/10.54309/IJICT.2026.25.1.005
Loading...