Автоматизированная система анализа слабоструктурированных данных киберразведки с использованием больших языковых моделей
Ключевые слова:
информационная безопасность, киберразведка, анализ уязвимостей, индикаторы компрометации, большие языковые модели, дополнительный расширенный поиск информацииАннотация
Введение: актуальной проблемой является недостаточная эффективность и высокая трудоемкость анализа и управления слабоструктурированными и структурированными данными киберразведки, собираемыми из различных источников. Цель: повышение эффективности (сокращение трудозатрат экспертов, обеспечение полноты и оперативности обновления базы знаний) анализа данных киберразведки с помощью методов искусственного интеллекта. Результаты: проведенный анализ подходов к построению систем управления данными киберразведки показал, что перспективным направлением является применение больших языковых моделей в составе «вопрос-ответной» системы поддержки принятия решений с механизмом расширенной дополненной генерации. Разработаны структурная схема и функциональная модель системы интеллектуального анализа данных киберразведки на основе больших языковых моделей с применением конвейера расширенной дополненной генерации; алгоритм семантической разметки и извлечения информации из слабоструктурированных данных; исследовательский прототип (компонентная модель, микросервисная архитектура) программного обеспечения. Отличительной особенностью системы является комплексирование сведений из нескольких источников с помощью конвейера расширенной дополненной генерации. Вычислительный эксперимент на подготовленном наборе данных показал согласованность экспертных ответов с ответами, предложенными системой, на уровне 3,98 балла из пяти. Значение метрики BERTScore F1 составило 0,89, метрики «корректность ответов» (Answer Correctness) фреймворка RAGAS – 0,822. Практическая значимость: применение больших языковых моделей обеспечивает возможность аккумулировать знания об актуальных сценариях атак в рамках единой базы знаний. Это позволяет повысить эффективность обработки данных с целью оказать значимую поддержку специалистам по защите информации в ходе анализа актуальных угроз, уязвимостей и сценариев реализации компьютерных атак за счет снижения трудозатрат (времени сбора и обработки) и тем самым повысить защищенность корпоративных информационных систем. Обсуждение: дальнейшее повышение эффективности анализа данных киберразведки возможно на основе построения гетерогенных «комитетов экспертов» из больших языковых моделей и мультиагентных систем.