Курсовой проект по компьютерной лингвистике студентов группы ИВТ-365 Линцова И. и Щербинина В.
Выделить с помощью Томита-парсера упоминание в тексте значимых персон Волгоградской области и достопримечательностей, также зафиксировать в БД записи с упоминаниями. Создать модуль для проведения с помощью Spark MlLib анализ модели word2vec на статьях из БД. Определить контекстные синонимы и слова, с которыми они упоминались в тексте.
Персоны https://global-volgograd.ru/person Достопримечательности https://avolgograd.com/sights?obl=vgg
Для работы с Томитой был написан скрипт, алгоритм работы которого приведен ниже:
- Подключиться к базе данных
- Получить новости из базы данных по полям
- Записать все новости в txt файл
- Открыть файл на чтение и найти по названию факта результат
- Записать найденный факт в массив персон/достопримечательностей
- Записать в БД значения из массива персон и достопримечательностей
Модуль имеет следующий web-интерфейс, на нем представлено имя персоны или достопримечательности с контекстным синонимом




