Protest Crawling Database

서울/종로구 집회·통제 정보 크롤링 자동화 레포지토리입니다.
Selenium + BeautifulSoup + VWorld API를 활용하여 매일 오전 8시 자동으로 데이터를 수집합니다.

📂 구조

crawler.py : SPATIC 사이트에서 집회 정보를 수집하고 CSV로 저장
data/집회_정보.csv : 최신 집회 데이터 (GitHub Actions에서 매일 업데이트)
.github/workflows/crawl.yml : GitHub Actions 스케줄러 (매일 오전 8시 실행)

📊 CSV 스키마

모든 필드는 문자열이며, 다중 값은 JSON 문자열 형식입니다.

컬럼명	설명
년	연도 (YYYY)
월	월 (MM)
일	일 (DD)
start_time	시작 시간 (HH:MM)
end_time	종료 시간 (HH:MM)
장소	장소 리스트 (JSON 문자열)
인원	참가 인원 (없으면 공란)
위도	위도 리스트 (JSON 문자열)
경도	경도 리스트 (JSON 문자열)
비고	비고/행진경로 등 텍스트

⚙️ 실행 방법

pip install -r requirements.txt
python crawler.py —out data/집회_정보.csv

🕐 실행 스케줄 (GitHub Actions)

crawler.py → 매일 오전 8시 (KST) 자동 실행
- cron: "0 23 * * *" (UTC 기준, 한국시간 08:00)
integrated_crawler.py → 매일 오후 8시 (KST) 자동 실행
- cron: "0 11 * * *" (UTC 기준, 한국시간 20:00)
수동 실행도 가능 (workflow_dispatch 지원)

🗂️ 데이터 저장 규칙

파일명: 집회_정보_YYYY-MM-DD.csv → YYYY-MM-DD는 집회가 실제 열리는 날짜
저장 방식: 수정/보강 모드
- 같은 날짜 CSV가 이미 있으면 불러와서 새 데이터와 중복 제거 후 보강 저장
- 완전히 동일한 집회는 건너뜀
- 일부 필드가 비어 있던 경우, 새 데이터에 값이 있으면 해당 필드만 채움
- 파일이 없으면 새로 생성

Name		Name	Last commit message	Last commit date
Latest commit History 232 Commits
.github/workflows		.github/workflows
.vscode		.vscode
attachments		attachments
data		data
.DS_Store		.DS_Store
.env		.env
.gitignore		.gitignore
README.md		README.md
crawler.py		crawler.py
integrated_crawler.py		integrated_crawler.py
main.py		main.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Protest Crawling Database

📂 구조

📊 CSV 스키마

⚙️ 실행 방법

🕐 실행 스케줄 (GitHub Actions)

🗂️ 데이터 저장 규칙

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Protest Crawling Database

📂 구조

📊 CSV 스키마

⚙️ 실행 방법

🕐 실행 스케줄 (GitHub Actions)

🗂️ 데이터 저장 규칙

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages