Skip to content

Latest commit

 

History

History
31 lines (21 loc) · 1.26 KB

File metadata and controls

31 lines (21 loc) · 1.26 KB

Program

Goal

fetch-skill 是一个统一的 URL 内容抓取工具,目标是: 无论什么 URL,输入进去,输出干净可读的 Markdown。

Constraints

  • 零依赖核心:单条推文、普通网页的抓取不依赖任何第三方包(仅用 Python stdlib)
  • 渐进增强:Camofox 和 wechat-article-exporter 为可选增强,未配置时优雅降级
  • stderr/stdout 分离:进度信息到 stderr,内容到 stdout,方便管道和脚本使用
  • 不存储凭据:环境变量或命令行参数传入,不写入磁盘

Core Axes

  • 覆盖率:能处理的 URL 类型越多越好(普通网页 / Twitter / 微信 / ...)
  • 质量:输出的 Markdown 干净、可读,保留原文结构
  • 可靠性:回退链确保高成功率,不因单一服务故障而整体失败

Signals

  • 普通网页抓取成功率 > 95%(四级回退)
  • 单条推文抓取无需任何配置即可工作
  • 微信文章在无 API 时仍可通过 Jina 获取正文

Near-Term Priorities

  • Priority 1:完善 Camofox 回复/时间线解析(parse_timeline_snapshot)
  • Priority 2:微信文章增加 wespy/sogou 搜索联动(批量获取账号文章列表)
  • Priority 3:增加 --batch FILE 支持,从文件中批量抓取 URL 列表