Skip to content

r0acho/Kursovaya_CL

Repository files navigation

Kursovaya_CL

Курсовой проект по компьютерной лингвистике студентов группы ИВТ-365 Линцова И. и Щербинина В.

Парсинг сайта и реализация web-интерфейса

Модуль анализа новостей из БД

Выделить с помощью Томита-парсера упоминание в тексте значимых персон Волгоградской области и достопримечательностей, также зафиксировать в БД записи с упоминаниями. Создать модуль для проведения с помощью Spark MlLib анализ модели word2vec на статьях из БД. Определить контекстные синонимы и слова, с которыми они упоминались в тексте.

Персоны https://global-volgograd.ru/person Достопримечательности https://avolgograd.com/sights?obl=vgg

Для работы с Томитой был написан скрипт, алгоритм работы которого приведен ниже:

  1. Подключиться к базе данных
  2. Получить новости из базы данных по полям
  3. Записать все новости в txt файл
  4. Открыть файл на чтение и найти по названию факта результат
  5. Записать найденный факт в массив персон/достопримечательностей
  6. Записать в БД значения из массива персон и достопримечательностей

photo_2022-01-06_02-43-22 photo_2022-01-06_02-58-01 photo_2022-01-06_04-23-56 image

Модуль имеет следующий web-интерфейс, на нем представлено имя персоны или достопримечательности с контекстным синонимом image

About

Курсовой проект по компьютерной лингвистике студентов группы ИВТ-365 Линцова И. и Щербинина В.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors