GitHub - krish-arora-88/JobDistill: CS/IT Jobs Skillset Analysis Tool

JobDistill: LLM-Powered Skill Extraction from Job Postings

JobDistill extracts and ranks the most in-demand technical skills from job posting PDFs using Gemini LLM. Drop your PDFs in a folder, run the script, and get a ranked CSV of skills with an optional interactive HTML dashboard.

v3.0 replaces the ML/NLP pipeline with Gemini 2.5 Flash for context-aware extraction with zero training, proper normalization, and automatic skill categorization.

Quick Start

# Install dependencies
pip install -r requirements.txt

# Set your Gemini API key
export GEMINI_API_KEY=your-api-key-here

# Run with Gemini extractor (default)
python main.py --pdf_dirs Summer_2026_Co-op

# Run on all directories
python main.py

# Generate HTML dashboard
python main.py --pdf_dirs Summer_2026_Co-op --dashboard dashboard.html

# Use regex extractor (offline fallback, no API key needed)
python main.py --extractor regex --pdf_dirs Summer_2026_Co-op

CLI Flags

Flag	Default	Description
`--pdf_dirs`	All co-op dirs	Directories containing PDF files
`--extractor`	`gemini`	`gemini` or `regex`
`--gemini_model`	`gemini-2.5-flash`	Gemini model (`gemini-2.5-flash-lite` for budget)
`--concurrency`	`10`	Max concurrent Gemini API calls
`--dashboard`	None	Path for HTML dashboard output
`--output`	`skill_analysis_results.csv`	Output CSV path
`--metrics_out`	`metrics.json`	Metrics JSON path
`--cache_dir`	`.cache/jobdistill`	Cache directory for extracted text
`--max_docs`	None	Limit number of PDFs (for testing)
`--batch_size`	`20`	Batch size (regex mode only)

Output

skill_analysis_results.csv — Ranked skills with document frequency counts
metrics.json — Pipeline metrics, quality guardrail results, processing stats
dashboard.html (optional) — Interactive dashboard with charts and sortable table

How It Works

PDF Text Extraction: Extract text from all PDFs using pdfminer (with SHA256 file caching)
Gemini Skill Extraction: Send each document's text (truncated to 6000 chars) to Gemini with a structured prompt requesting JSON output
Concurrent Processing: Process multiple PDFs simultaneously via ThreadPoolExecutor
Aggregation: Count skills by document frequency (each skill counts once per PDF)
Categorization: Gemini categorizes each skill (Language, Framework, Tool, Platform, Database, Cloud, etc.)

Architecture

main.py                          # CLI entrypoint
jobdistill/
  cli.py                         # Argument parsing
  pipeline.py                    # Orchestration (PDF collection, extraction, aggregation)
  pdf_text.py                    # PDF text extraction with caching
  dashboard.py                   # HTML dashboard generator
  metrics.py                     # Pipeline metrics and quality guardrails
  normalize.py                   # Text normalization utilities
  boilerplate.py                 # Corpus-level boilerplate removal
  extractors/
    base.py                      # SkillExtractor ABC + ExtractionResult
    gemini_extractor.py          # Gemini LLM extractor (primary)
    regex_extractor.py           # Regex extractor (offline fallback)
tests/                           # pytest test suite (all API calls mocked)

Cost

Gemini 2.5 Flash is very cost-effective for this use case:

~$0.10-0.50 per run depending on corpus size
gemini-2.5-flash-lite available as a budget option

Testing

# Run all tests (no API key needed — all Gemini calls are mocked)
python -m pytest tests/ -v

Requirements

Python 3.10+
GEMINI_API_KEY environment variable (for Gemini extractor)
See requirements.txt for Python dependencies

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
.cache/jobdistill		.cache/jobdistill
.claude		.claude
.ipynb_checkpoints		.ipynb_checkpoints
Fall_2025_Co-op		Fall_2025_Co-op
Fall_2026_Co-op		Fall_2026_Co-op
Summer_2025_Co-op		Summer_2025_Co-op
Summer_2026_Co-op		Summer_2026_Co-op
Winter_2026_Co-op		Winter_2026_Co-op
jobdistill		jobdistill
plans		plans
tests		tests
330_Review.ipynb		330_Review.ipynb
CLAUDE.md		CLAUDE.md
README.md		README.md
dashboard.html		dashboard.html
main.py		main.py
metrics.json		metrics.json
requirements.txt		requirements.txt
skill_alias_mapping.csv		skill_alias_mapping.csv
skill_analysis.log		skill_analysis.log
skill_analysis_results.csv		skill_analysis_results.csv
skill_categories.csv		skill_categories.csv
skill_categories.json		skill_categories.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

JobDistill: LLM-Powered Skill Extraction from Job Postings

Quick Start

CLI Flags

Output

How It Works

Architecture

Cost

Testing

Requirements

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

JobDistill: LLM-Powered Skill Extraction from Job Postings

Quick Start

CLI Flags

Output

How It Works

Architecture

Cost

Testing

Requirements

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages