VII Фирсовские чтения

Multi-head attention, MCP и RAG: между теоретической информатикой и региональными компаниями

Сборник материалов международной научно-практической конференции «VII Фирсовские чтения: язык, культура, коммуникации», Российский университет дружбы народов им. Патриса Лумумбы, Москва, 2026 г.

В статье рассматривается роль университетов в изучении различных вопросов, связанных с применением больших языковых моделей (LLM) и поддержке региональных компаний в этом направлении. Авторы указывают на прикладной интерес к таким технологиям, как tools calling и MCP, а также обсуждают запуск языковых моделей в локальном контуре. В направлении фундаментальныъх исследований рассматриваются вопросы применения Multi-head attention для решения задач фундаментальной лингвистики.

Ключевые слова: LLM, языковые модели, MCP, RAG, Multi-head attention

Исследование языковых моделей со временем прочно закрепляется в качестве динамично развивающегося направления теоретической информатики. Технологии этой отрасли становятся ключевым элементом в области искусственного интеллекта и обработки естественного языка. Университеты должны быть готовы решать не только академические задачи в сфере исследования языковых моделей, но и задачи, поступающие от региональных предпринимателей, поскольку индустрия искусственного интеллекта требует компетенций, нередко отсутствующие в коммерческих структурах регионального уровня.

Две наиболее востребованные технологии для коммерческого применения — это RAG [1] и tools calling.

Технология RAG (Retrieval-Augmented Generation) на текущий момент является самым простым и сравнительно недорогим способом для компаний МСП создать своего интеллектуального ассистента в виде чат-бота. Однако потенциал её дальнейшего развития представляется ограниченным. Это обусловлено сложностями в области точности извлечения информации и интеграции разнообразных источников данных, что ставит под вопрос её конкурентоспособность в сравнении с новыми подходами и алгоритмами. В рамках академических задач коллектив нашей кафедры практически прекратил исследование RAG.

Фокус интересов коммерческих компаний постепенно сдвигается в сторону технологии tools calling, которая позволяет интегрировать языковые модели с собственными продуктами компаний. Внедрение механизма tools calling в коммерческие продукты требует комплексной проработки решения, начиная с проектирования вариантов использования с оценкой пользовательского опыта и заканчивая созданием вычислительной системы для инференса в замкнутом контуре предприятия. Необходимо учитывать вопросы интеграции с существующей инфраструктурой предприятия, обеспечение безопасности данных и эффективность вычислительных ресурсов. Имеющийся опыт сотрудников университета позволяет существенно облегчить разработку и построение подобных решений.

Естественным развитием этого направления является интеграция поддержки протокола MCP (Model context protocol) в проекты региональных предпринимателей. Развитие и поддержка протокола MCP осуществляются в двух основных направлениях: с одной стороны, это касается MCP-серверов, с другой — MCP-клиентов. Примечательной тенденцией в развитии MCP-серверов является возможность оставаться в тренде технологий искусственного интеллекта, не занимаясь при этом непосредственной поддержкой больших языковых моделей. Следует оговориться, что в значительной мере эти работы сдерживаются сравнительно малым распространением MCP-клиентов среди российских пользователей.

Процесс локального запуска моделей в контуре предприятия представляет собой значительную трудность. Это связано с необходимостью обеспечения совместимости модели с существующей инфраструктурой, а также с вопросами безопасности и защиты данных.

Дефицит доступного оборудования чувствуется особенно остро при адаптации моделей под специфические задачи и данные пользователей, что требует проведения fine tuning. Ключевая трудность сфокусирована в сложности и ресурсоёмкости процесса настройки моделей. Сложившаяся ситуация заставляет уделять большее внимание таким технологиям, как Peft и LoRA (Low-Rank Adaptation) [2]. Они позволяют более эффективно адаптировать большие языковые модели под конкретные задачи, снижая при этом нагрузку на вычислительные ресурсы и ускоряя процесс обучения.

По нашим наблюдениям, основной тип ускорителей, используемых на региональном уровне как коммерческими структурами, так и академическими учреждениями, — это модели nVidia RTX 4090 и RTX 5090, что подчёркивает сохраняющийся дефицит производительных графических процессоров для эффективной работы с языковыми моделями.

Фундаментальные лингвистические задачи, такие как морфологическое тегирование и снятие омонимии, существенно отличаются от задач, стоящих перед коммерческими компаниями, которые обычно ориентированы на решение бизнес-задач.

Большой потенциал исследований коллектив нашей кафедры видит в Multi-Head Attention (MHA) [3]. Известные публикации подтверждают гипотезу о том, что MHA может применяться для обработки не только текста, но и данных другой природы, включая изображение, звук и графовые структуры. MHA позволяет модели одновременно учитывать различные представления и аспекты входных данных, что значительно улучшает её способность анализировать и понимать сложные зависимости в информации.

MHA можно исследовать на уже имеющихся наборах данных и доступном оборудовании, что делает эту технологию гибкой и применимой в различных условиях. Такой подход позволяет выделить доступную нишу для академических исследований, оставляемую сравнительно свободной крупными компаниями, которые воспринимают MHA преимущественно в коммерческом ключе.

Университеты занимают уникальное положение на стыке академических исследований и поддержки региональных коммерческих структур, что делает их заметными игроками в развитии и применении больших языковых моделей. Они не только проводят фундаментальные исследования, направленные на расширение границ знаний в области искусственного интеллекта и обработки естественного языка, но и активно сотрудничают с местными компаниями, помогая им интегрировать передовые технологии в свои продукты и услуги за счёт передачи имеющихся компетенций. Это сотрудничество способствует созданию новых решений, которые предельно приближены к практическим потребностям и повышают конкурентоспособность компаний. Кроме того, университеты готовят кадры, имеющие точное представление о практических задачах в мире языковых моделей, что обеспечивает устойчивый поток специалистов на рынок труда. Это представляет собой перспективную сферу деятельности, открывающую широкие возможности для научных исследований .

Литература

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks / P. Lewis, E. Perez, A. Piktus [и др.] // Facebook AI Research (владелец Facebook — компания Meta признана экстремистской и запрещена в Российской Федерации). — 2021. — URL: https://arxiv.org/abs/2005.11401 (access date: 10.05.2025).
LoRA: Low-Rank Adaptation of Large Language Models / E. Hu, Y. Shen, P. Wallis [et al.] // arXiv. – 2021. – URL: https://arxiv.org/abs/2106.09685 (access date: 02.08.2025).
Attention is All you Need / A. Vaswani, N. M. Shazeer, N. Parmar [et al.] // Neural Information Processing Systems. — Long Beach, CA, USA. — 2017. — URL: https://arxiv.org/abs/1706.03762 (access date: 28.01.2025).
Миражи интеллекта: от теста Тьюринга до больших языковых моделей / Михаил Сергеевич Пожидаев. — [б. м.] : Издательские решения, 2025. — 234 с. — ISBN 978-5-0067-9266-1*