7 октября 2014 г. Задачи для бакалавров и магистров 2014–2015 учебного года

Для студентов 2014–2015 учебного года предлагаются следующие темы курсовых и дипломных работ!

Задача на сообразительность в 30%

Задача определения класса конспектной строки

Представьте, пожалуйста, что идёт беседа по телефону, и один из собеседников сообщает второму информацию о мероприятии. Второй человек записывает на бумажку основные данные, чтобы не забыть, и делает это произвольным образом, чтобы не упустить самого значимого.

Примеры строк:

Задача сводится к тому, чтобы определить класс строки и в соответствии с ним заполнить некоторые поля, назначение которых очевидно. В приведённых примерах первая фраза является информацией о концерте, вторая — о посещении государственного учреждения, третья — об авиарейсе. Заранее известна, что строка целиком принадлежит одному классу.

Предполагается, что классы определены заранее. Работа не требует изучения теоретического материала и сводится к адекватному определению правил. Все части строки, назначение которых неясно, должны быть записаны в некоторое поле "Комментарий". Приветствуется определение степени уверенности о принадлежности, но множественный ответ не допускается (класс должен быть выдан только один).

Особенно замечательными будут работы, которые:

  1. Могут работать с легко расширяемым набором классов (предполагают обучение).
  2. Задействуют всё-таки теоретические достижения (прослеживается применимость методов Data Mining).

Задачи на сообразительность в 60%

Определение типа предложения

Дано Некоторое предложение произвольной длинны и содержания, требуется определить его принадлежность к одному из некоторых классов:

В некоторых случаях проверка тривиальна (вопросительные предложения содержат вопросительный знак на конце), но в общем случае задача непроста. Сослагательное наклонение является подмножеством соответствующего типа ("Вот если бы ты..., то тогда бы ты..." является просто условным предложением). Результат должен быть проверен на некотором тексте, сопоставляя вывод программы с оценкой человека.

Особенно замечательными будут работы, которые:

  1. Привлекают известные филологические достижения (при желании возможно установление контакта с филологическим факультетом). В частности, очевидны хорошие возможности применения словарей. Слово "если" с большой вероятностью обозначает условное предложение, но не является единственным ("Не будь в Сибири такой зимы, наши шубы всегда висели бы в шкафах без дела.").
  2. Для условных предложений будут выделять само условие и условное утверждение.
  3. Будут указывать степень уверенности в своём ответе.
  4. Для решения попутных вспомогательных подзадач смогут привлечь близкие темы (см. следующую задачу).

Определение частей речи в предложении

Требуется реализовать программу, которая определяет для каждого слова в предложении часть речи. Работа предполагает некоторый уровень знаний теории вероятности, поскольку задействуются скрытые Марковские модели и [[http://ru.wikipedia.org/wiki/%D0%90%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC_%D0%92%D0%B8%D1%82%D0%B5%D1%80%D0%B1%D0%B8 алгоритм Витерби]]. Предполагается, что студент продолжит работу, проведённую ранее другими студентами (т.е. не нужно всё начинать с начала, уже есть некоторые наработки). подготовительная фаза заключается в анализе статистик в Открытом корпусе русского языка.

Задачи на сообразительность в 90%

=== Задача заполнения семантической сети

Задача заполнения семантической сети на основе текста в понимании бакалавра или магистра должна быть нерешаемой, но в рамках нашей работы является интегральным направлением, обобщающим результаты задач на 30% и 60% сообразительности. Предполагаются рассуждения о формате семантической сети с исследованием известных предложений (которых чрезвычайно много) и философских выкладок метафизического характера. Приветствуется знание (хотя бы понимание) "Категорий" Аристотеля ) или других известных предложений, но необходимо помнить, что у нашей работы должна быть практическая цель. Нашей практической целью является структура, которая в ответ на некоторый запрос (выраженный в терминах той же семантической сети, но по содержанию этой сети в настоящий момент не выполненный) будет способна определить подмножество вершин, описывающих шаги по направлению к выполнению запроса.

Минимальные требования для выполнения работы:

Задача определение контекста материала

Ещё одной задачей, неразрывно связанной с семантическими сетями, является задача определения контекста. Если Вы открываете страницу "Контакты" на сайте, то найти там телефон нетрудно, но какой от него толк, если нет представления, какой организации принадлежит сайт? В общем случае есть вероятность, что подход к проблеме можно найти при помощи графовых ядер.

Задача распознавания номеров кресел

Работа проводится в активном сотрудничестве с Анатолием Ивановичем Попковым и направлена на тематику вспомогательных технологий. Предположим, что у нас есть фотографии номеров кресел БКЗ. Требуется научиться понимать, какие номера находятся на картинке. Допускается применение методов как с использованием заготовленных образцов для сравнения, так и без неё (что, естественно, несравненно лучше). Приветствуется задействование готовых библиотек, например, [[http://ru.wikipedia.org/wiki/OpenCV OpenCV]].