26 июня 2017 г. Машинное обучение для невизуального веб-браузера

В наше время только уж совсем далёкий от ИТ человек не говорит про машинное обучение. Так что и мы не останемся в стороне...

Браузер LUWRAIN развивается и стабилизируется. Он представляет собой обёртку вокруг движка WebKit, включённого в состав JavaFX. Такой подход в сочетании с общей текстовой природой LUWRAIN делает его, может быть, одним из самых тех браузеров, которые одновременно являются и текстовыми (как, например, пресловутый w3m), и в то же время умеют обрабатывать JavaScript. Дизайн браузера LUWRAIN, скорее всего, будет ещё обильно описываться в различных форматах, но сейчас речь не совсем про это.

Мы начали с машинного обучения. Идея невизуального браузера порождает обширную область для применения машинного обучения, причём, видимо, только такие подходы могут решить некоторые существующие проблемы.

Как известно, люди с нарушениями зрения при обзоре веб-страниц очень страдают от того, что вынуждены исследовать множество заведомо ненужного оформления. Попытки дополнительной разметки для выделения подобных блоков предпринимались, но хоть сколько-нибудь заметно это проблему не решило. А вот если вооружиться машинным обучением, построить модели и затем провести некоторую предварительную процедуру обучения алгоритмов при помощи подсказок человека, то появляется шанс существенно улучшить качество невизуальной работы в Интернете.

Сразу и нашлись две неплохие библиотеки на этот случай на Java:

В коде LUWRAIN в центре подобных вычислений, вероятно, будет находиться класс org.luwrain.browser.docbuilder.Prenode. Он является основной структурной единицей при трансформации DOM-модели в формат, предназначенный для показа пользователю.