Презентации и программа лекций

Учебный курс «Обработка естественного языка&»

Лекция 1. Введение и классические алгоритмы (презентация)
1. Понятия токенизации, сегментации, лемматизации и стемминга.
2. Формальные аналитические грамматики и утилита Томита-парсер.
3. TF-iDF, скрытые марковские модели и алгоритм Витерби.
Лекция 2. Линейная ячейка и Word2vec (презентация)
1. Перцептрон, полносвязные сети и функции активации.
2. Векторное представление слов.
3. Модель Word2vec.
Лекция 3. Рекуррентные ИНС и модели памяти (презентация)
1. Идея рекуррентной сети и её особенности.
2. Нейронная сеть Элмана.
3. Модель Seq2seq.
4. Долгая краткосрочная память.
Лекция 4. Механизм внимания (презентация)
1. Идея механизма внимания.
2. Подходы Богданова и Луонга.
3. Внутреннее внимание.
4. multi-head attention и позиционное кодирование.
Лекция 5. Трансформер (презентация)
1. Преимущества Трансформера и его назначение.
2. Схема кодера.
3. Схема декодера.
4. Типы внутреннего внимания в модели Трансформера.
Лекция 6. BERT и GPT (презентация)
1. Описание модели BERT.
2. Идея fine tuning.
3. Описание семейства GPT.
4. Сравнение BERT и GPT между собой.
Лекция 7. Прикладные аспекты использования LLM (презентация)
1. Построения промтов для генеративных моделей.
2. Голосовые ассистенты.
3. Тесты и оценка качества решения языковых задач.
Лекция 8. Изображение и звук (презентация)
1. Диффузионный процесс и Stable diffusion.
2. Мел-кепстральные коэффициенты.
3. Синтез речи и модель Tacotron2.

Вопросы для устного зачёта

На устном зачёте будет сгенерирован билет, в который войдут три случайные темы из списка ниже:

Типы задач обработки естественного языка; распространённые варианты предобработки текста; трудности в их реализации.
Формальные аналитические грамматики; вероятностные модели; СММ; алгоритм Витерби.
Перцептрон; линейная ячейка; уравнение линейной ячейки; функция активации; порядок обучения нейронной сети.
Векторное представление слов; алгебраические операции над словами; модель Word2vec.
Рекуррентная сеть; модель Элмана; уравнения модели Элмана для последовательностей и для вектора скрытого состояния; недостатки рекуррентных сетей.
Модель Seq2seq; кодер и декодер; задачи для Seq2seq; долгая краткосрочная память.
Идея механизма внимания; внимание Богданова и Луонга; внутреннее внимание; multi-head attention.
Трансформер; позиционное кодирование; преимущества Трансформера; взаимосвязь кодера и декодера Трансформера.
BERT, GPT и прикладные вопросы использования генеративных моделей.
Идея генерации изображений и речи; диффузионная модель; MFCC; Tacotron2.

Задания к практическим работам

Практическая работа «Предобработка текста »

Полезная презентация с подсказками

Требуется прочитать текст на русском языке из файла и вывести все пары соседних слов, которые:

имеют имена существительные или имена прилагательные на первом или втором месте;
совпадают по роду, числу и падежу.

Все пары следует выводить в виде лемм. Например, если исходная пара имела вид «необычайных университетов», то должна быть выведена пара «необычайный университет».

Практическая работа «Векторное представление слов»

Полезная презентация с подсказками (вектора для слов можно брать тут)

Используя import gensim, необходимо реализовать вычисление десяти самых близких по смыслу слов, находящихся в окрестности от результата операций сложения и вычитания в векторной модели. Каждому студенту преподавателем будет дана пара слов и необходимо найти такую линейную комбинацию исходных слов, чтобы в результате вычислений заданная пара попадала в первую десятку.

Практическая работа «Анализ на основе RNN»

Полезная презентация с подсказками

Необходимо провести повторный анализ текста, который использовался в работе «Предобработка текста », но с использованием import rnnmorph и без использования import pymorphy3. Если полученные результаты различаются, необходимо пояснить, почему так вышло.

Практическая работа «Маскирование слов»

Полезная презентация с подсказками

Используя модель BERT и её функцию Masked language modelling, требуется реализовать вычисление десяти самых вероятных слов, на месте любого умышленно пропущенного слова в корректно составленном предложении на русском языке.

Каждому студенту преподавателем будет дана пара слов, и требуется построить окружение, т. е. само возможное предложение на русском языке с пропущенным словом, для которого в вариантах подстановки пара слов будет встречаться в первой десятке. Слова должны совпадать с точностью до словоформы (слово «домами» не может подходить под требуемое слово «домом»).

Практическая работа «Генерация текста»

Полезная презентация с подсказками

Используя модель RuGPT от Сбера, необходимо реализовать возможность генерации текста по заданному промпту. Допускается использование как старой модели rugpt3large_based_on_gpt2, так и новой ruGPT-3.5-13B.

Каждому студенту преподавателем будет дана пара слов, и требуется подобрать промпт таким образом, чтобы выданная пара слов встречалась бы в сгенерированном тексте с учётом порядка и с учётом словоформ (как в предыдущей работе). Допускается использовать обе модели, но пара слов преподавателем подбирается на rugpt3large_based_on_gpt2. Ограничений на значения параметров нет (даже на длину генерируемого текста), но подобранный промпт не должен содержать искомые слова ни в одной из их словоформ.

Функция generate для практической работы «Генерация текста»:

def generate(
            model, tok, text,
            do_sample=True, max_length=100, repetition_penalty=5.0,
            top_k=5, top_p=0.95, temperature=1,
            num_beams=None,
            no_repeat_ngram_size=3
            ):
          input_ids = tok.encode(text, return_tensors="pt")
          print(model.generate.__globals__['__file__'])
          out = model.generate(
              input_ids,
              max_length=max_length,
              repetition_penalty=repetition_penalty,
              do_sample=do_sample,
              top_k=top_k, top_p=top_p, temperature=temperature,
              num_beams=num_beams, no_repeat_ngram_size=no_repeat_ngram_size
              )
          return list(map(tok.decode, out))