Skip to content

chore: Qwen3.6-27B Dense 비교 환경 구축 — 운영은 35B-A3B 유지 [#110]#121

Open
cycorld wants to merge 1 commit into
mainfrom
chore/qwen-27b-compare-env
Open

chore: Qwen3.6-27B Dense 비교 환경 구축 — 운영은 35B-A3B 유지 [#110]#121
cycorld wants to merge 1 commit into
mainfrom
chore/qwen-27b-compare-env

Conversation

@cycorld
Copy link
Copy Markdown
Owner

@cycorld cycorld commented Apr 23, 2026

Summary

  • 운영 모델 교체 안 함 — Qwen3.6-35B-A3B (MoE, 활성 3B) 유지. 학생 동시성 4 slot 우선.
  • 비교·벤치 환경만 cycorld 서버에 구축 (Qwen3.6-27B Dense, port 8098, 수동 시작)
  • VRAM 24GB 공유 → swap 스크립트로 35B ↔ 27B 전환 (운영 다운타임 발생 → 수업 중 금지)
  • 이 PR 은 LMS 측 docs only — docs/LLM_ARCHITECTURE.md 보조 모델 섹션 + changelog

의사결정 근거

27B Dense 는 토큰마다 27B 전부 활성화. 같은 RTX 4090 24GB 에서:

  • 동시성 4 slot → 1~2 slot 으로 떨어짐
  • 추론 속도 5~9× 느려짐 (활성 파라미터 비율)

→ 학생 챗봇 throughput 우선. 27B 는 차세대 모델 후보 비교용으로만 보관.

cycorld 서버 변경 (이 PR 밖)

  • ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf (~17GB)
  • ~/.config/systemd/user/llama-server-27b.service (port 8098, WantedBy 빠짐)
  • ~/bin/swap-to-{27b,35b}.sh
  • ~/bin/compare-llm.sh (4개 prompt: 인사 / 아이디어 / Python 버그 / Go deadlock)
  • /home/cycorld/llm-proxy/ARCHITECTURE.md 보조 모델 섹션

Test plan

  • 모델 다운로드 확인 (cycorld:~/models/)
  • systemd unit daemon-reload + 수동 start 가능 확인
  • swap 스크립트 chmod +x + dry-read 검토
  • 운영 llama-server.service (35B) 무변경 확인
  • 스모크 테스트 통과 (go test ./tests/integration/ -run TestSmoke -tags sqlite_fts5)
  • 첫 비교 벤치 실행 (별도 — 수업 일정 비는 시간에)

미포함 (의도)

  • 외부 노출 X (FastAPI proxy UPSTREAM=:8099 고정 → 27B 격리)
  • 자동 복귀 타이머 X (운영자 책임)
  • 벤치 자동화 X (모델 교체 빈도 낮음)

🤖 Generated with Claude Code

prompt: 응 비교환경 구축까지 해주고 일단은 기존 모델 쓰자 ㅎㅎ

cycorld 서버:
- ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf 다운로드 (~17GB)
- ~/.config/systemd/user/llama-server-27b.service (port 8098, 수동 시작)
- ~/bin/swap-to-{27b,35b}.sh — VRAM 24GB 공유라 동시 X
- ~/bin/compare-llm.sh — 동일 prompt 4개 양 모델 응답 시간·토큰 비교
- /home/cycorld/llm-proxy/ARCHITECTURE.md 보조 모델 섹션 추가

LMS repo (이 PR — docs only):
- docs/LLM_ARCHITECTURE.md 보조 모델 섹션 추가
- changelog/110 + index.json
- tasks/done/110 이동

의사결정: Dense 27B 는 활성 파라미터 9× ↑ → 동시성 4 slot → 1~2 slot
떨어짐. 학생 동시성 우선 → 운영은 35B-A3B (MoE, 활성 3B) 유지.
27B 는 차세대 모델 후보 비교·벤치 용도로만 보관.
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant