A real-time intelligent assistant that analyzes your screen, understands what you’re doing, and explains it like a patient teacher
- 截图分析:按下
F8自动截屏当前主屏幕; - 图像理解:通过
llava-phi3:3.8b模型进行图像内容识别; - 深度讲解:将识别内容交给
deepseek-llm:7b模型进行教学化分析; - 语音播报:微软 Edge TTS将讲解内容朗读
- 全流程本地运行
- 已安装 Ollama 并配置本地模型
ollama run llava-phi3:3.8b负责图像理解,输出对屏幕内容的视觉描述。
ollama run deepseek-llm:7b接收图像描述,输出深入讲解
在 PyCharm、VSCode 或第三个终端中运行:
python main.py按下 F8 即可开始分析。
-
打开你想让 AI 分析的界面(比如代码、论文、题目…)
-
按下
F8触发自动截屏; -
程序将:
- 使用 LLaVA 识别图像内容
- 使用 DeepSeek 模型生成中文讲解
- 通过 Edge TTS 自动朗读输出
-
按下
ESC退出程序
[LLaVA] This image contains a text editor with code...
[DeepSeek] 这段代码是用于图像分类任务,使用了 ResNet 结构…
- 请确保你的电脑音频设备可用,否则
playsound播报会失败; - 显卡需要支持 16GB 显存
- 若使用 macOS / WSL,请使用替代音频模块
- 欢迎 Star / Fork / issue

