Skip to content

네이버 뉴스 코로나 백신 보도 관련 기사 수집

Notifications You must be signed in to change notification settings

dev-Lesser/naver-news-crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

naver news crawler

네이버 뉴스에서 코로나 + 백신 키워드로 현재기준 최근 6개월 뉴스기사를 수집하는 수집기 입니다.

수집된 기사들은 로컬 monogodb 에 저장됩니다.

  • scrapy
  • pandas
  • lxml
  • pymongo

수집 기준 url 설명

  • base 도메인 https://search.naver.com/search.naver
  • query= 검색할 키워드
  • sort=1 (최신순 정렬)
  • ds= YYYY.MM.DD 형식 (기사 날짜 시작 범위)
  • de= YYYY.MM.DD 형식 (기사 날짜 시작 범위)
  • news_office_checked= 언론사 코드(네이버 제공)
  • start= 1 (시작 페이지, 1을 기준으로 10개씩 증가)

mongodb 정보

  • database : naver
  • collection : news
title : 뉴스기사 타이틀
contents : 뉴스기사 본문 html
url : 뉴스기사 url
press : 언론사
datetime : 뉴스기사 작성시간

데이터베이스 실행

docker-compose up -d

수집기 실행

scrapy crawl navernews

수집 실행 디버깅

screensh

About

네이버 뉴스 코로나 백신 보도 관련 기사 수집

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages