any2markdown/env.example at main · WW-AI-Lab/any2markdown · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
# ==============================================
# Any2Markdown MCP Server Configuration
# ==============================================

# Server Configuration
HTTP_HOST=0.0.0.0
HTTP_PORT=3000
MCP_SERVER_NAME=any2markdown

# File Processing Configuration
MAX_FILE_SIZE=104857600  # 100MB in bytes
MAX_CONCURRENT_JOBS=5
TEMP_DIR=/tmp/any2markdown
CLEANUP_TEMP_FILES=true

# Model Configuration
MODEL_CACHE_DIR=~/.cache/marker
AUTO_LOAD_MODELS=true
MODEL_DEVICE=auto  # auto, cpu, cuda, mps
GPU_MEMORY_FRACTION=0.8

# Hugging Face Model Cache Configuration
HF_HOME=~/.cache/huggingface  # Hugging Face cache root directory
HF_HUB_CACHE=~/.cache/huggingface/hub  # Model repository cache
HF_ASSETS_CACHE=~/.cache/huggingface/assets  # Assets cache
TORCH_HOME=~/.cache/torch  # PyTorch model cache
TRANSFORMERS_CACHE=~/.cache/transformers  # Transformers library cache

# Model Download Configuration
HF_HUB_ENABLE_HF_TRANSFER=false  # Use hf_transfer for faster downloads
HF_HUB_DISABLE_PROGRESS_BARS=false  # Show download progress bars
HF_HUB_DISABLE_TELEMETRY=true  # Disable usage telemetry
MODEL_DOWNLOAD_TIMEOUT=300  # Model download timeout in seconds
MODEL_RETRY_ATTEMPTS=3  # Number of retry attempts for model downloads

# Marker Model Configuration
MARKER_CONFIG_PATH=
MARKER_FORCE_OCR=false
MARKER_DEFAULT_LANGUAGES=en
MARKER_MAX_PAGES=50  # Max pages per document for safety

# Logging Configuration
LOG_LEVEL=INFO  # DEBUG, INFO, WARNING, ERROR, CRITICAL
LOG_FILE=logs/any2markdown-mcp.log
LOG_FORMAT=json  # json, text
LOG_ROTATION=true
LOG_MAX_SIZE=10MB
LOG_BACKUP_COUNT=5

# Performance Configuration
ENABLE_CACHING=true
CACHE_TTL=3600  # Cache time-to-live in seconds
CACHE_MAX_SIZE=1000  # Maximum number of cached items
MEMORY_LIMIT=2147483648  # 2GB in bytes

# Security Configuration
ENABLE_CORS=true
ALLOWED_ORIGINS=*
ENABLE_AUTH=false
API_KEY=
RATE_LIMIT_PER_MINUTE=60

# Development Configuration
DEBUG=false
RELOAD=false
WORKERS=1

# Database Configuration (Optional - for persistent caching)
REDIS_URL=redis://localhost:6379/0
REDIS_PASSWORD=
REDIS_SSL=false

# Monitoring Configuration
ENABLE_METRICS=true
METRICS_PORT=9090
HEALTH_CHECK_PATH=/health

# Document Processing Options
PDF_FORCE_OCR=false
PDF_DEFAULT_LANGUAGES=en,zh-cn
PDF_MAX_RESOLUTION=300
PDF_SKIP_IMAGES=false

WORD_PRESERVE_FORMATTING=true
WORD_EXTRACT_IMAGES=false
WORD_CONVERT_EQUATIONS=true

EXCEL_MAX_ROWS_PER_SHEET=10000
EXCEL_INCLUDE_EMPTY_CELLS=false
EXCEL_CONVERT_FORMULAS=true

# Output Configuration
DEFAULT_OUTPUT_FORMAT=markdown  # markdown, html, json
PAGINATE_OUTPUT=true
SPLIT_BY_PAGES=true
INCLUDE_METADATA=true

# Advanced Configuration
ENABLE_BATCH_PROCESSING=true
BATCH_MAX_SIZE=10
ENABLE_ASYNC_PROCESSING=true
PROCESS_TIMEOUT=300  # 5 minutes

# Experimental Features
ENABLE_STREAMING_RESPONSE=false
ENABLE_WEBSOCKET=false
ENABLE_GRAPHQL=false