Программа лекций и презентации по курсу «Обработка естественного языка»
- Лекция 1. Введение (презентация)
- Понятия токенизации, сегментации, лемматизации и стемминга.
- Формальные аналитические грамматики и утилита Томита-парсер.
- Скрытые марковские модели и алгоритм Витерби.
- Лекция 2. Линейная ячейка и Word2vec (презентация)
- Перцептрон, полносвязные сети и функции активации.
- Векторное представление слов.
- Модель Word2vec.
- Лекция 3. Рекуррентные ИНС и модели памяти (презентация)
- Идея рекуррентной сети и её особенности.
- Нейронная сеть Элмана.
- Модель Seq2seq.
- Долгая краткосрочная память.
Презентации к практическим работам
- Предобработка текста.
- Векторное представление слов (вектора для слов можно брать тут).
Задания к практическим работам
Практическая работа «Предобработка текста »
Требуется прочитать текст на русском языке из файла и вывести все пары соседних слов, которые:
- имеют имена существительные или имена прилагательные на первом или втором месте;
- совпадают по роду, числу и падежу.
Все пары следует выводить в виде лемм.
Например, если исходная пара имела вид «необычайных университетов», то должна быть выведена пара «необычайный университет».
Практическая работа «Векторное представление слов»
Используя import gensim
, необходимо реализовать вычисление десяти самых близких по смыслу слов,
находящихся в окрестности от результата операций сложения и вычитания в векторной модели.
Каждому студенту преподавателем будет дана пара слов и необходимо найти такую линейную комбинацию исходных слов, чтобы в результате вычислений заданная пара попадала в первую десятку.