Pi 模型看不到图?用 pi-local-ocr 给它一双“读文字的眼睛”
如果你在 Pi 里使用的模型不支持 vision,但又经常需要让 agent 读取截图、报错弹窗、表格截图或扫描件文字,pi-local-ocr 就是为这个场景准备的本地 OCR 扩展。
一句话定位
pi-local-ocr 是一个 面向无 vision 模型的 Pi 本地图片 OCR 扩展:它用 EasyOCR 读取图片/截图里的中英文文字,并把规整表格重建成 Markdown,让模型即使“看不到图”,也能继续理解图里的文本内容。
它的目标不是替代 vision 模型,而是解决一个更具体的问题:
你有一张截图 → 当前模型不支持图片 → pi-local-ocr 把图中文字转成文本/表格 → LLM 继续分析
适合谁用?
特别适合这些 Pi 用户:
- 你在 Pi 里使用的是不支持图片输入的模型。
- 你常把报错截图、终端截图、表格截图、证券/后台系统截图发给 agent。
- 你不想为了“读图上的字”切到更贵或更慢的 vision 模型。
- 你不想把包含隐私、账号、内部系统信息的截图上传到云 OCR。
- 你主要需要的是“读出图片里的文字”,而不是“理解照片里有什么”。
如果你的需求是“这张照片里有什么物体”,那需要真正的 vision 模型;如果你的需求是“这张截图上的字是什么”,这就是 pi-local-ocr 的场景。
核心特点
1. 完全本地,零 API 成本
OCR 在本机运行,不依赖云 API,不需要 OCR key,也不会把截图上传到第三方服务。
这对以下内容尤其重要:
- 公司内部系统截图
- 报错日志截图
- 证券/交易软件截图
- 个人隐私信息截图
- 本地开发环境截图
2. 专注图片/截图,而不是通用文档解析
pi-local-ocr 不想做全格式文档解析器。它专注这件事:
图片/截图 → 文字/表格 → Markdown → LLM 推理
如果你要解析 PDF、Office、CSV 等多格式文档,可以优先看 pi-docparser;如果你要用 Mistral OCR 把 PDF 转 Markdown,可以看 mistral-ocr-pi。pi-local-ocr 的优势在于:本地图片 OCR,尤其是中文截图和表格截图。
3. 对中文截图友好
支持:
ch
en
ch_en
实际测试场景包括中文证券软件截图、中文表格、中文错误信息等。对中文用户来说,这比只面向英文文档的 OCR 工具更贴近日常使用。
4. 表格截图可以转 Markdown 表格
它不仅返回散乱文字,还会根据 OCR 坐标做简单表格重建:
- EasyOCR 返回文字块和坐标。
- y 坐标接近的文字聚成同一行。
- 行内按 x 坐标排序成列。
- 输出 Markdown 表格。
这对规整截图特别有用:
- 股票/证券持仓截图
- Excel 表格截图
- 后台列表页截图
- 终端表格输出截图
- 数据看板里的表格区域
5. Extension 形式,模型调用更稳定
它不是一个 Markdown skill,而是 Pi extension,注册了真正的工具:
ocr_image(path, mode, lang)
相比让 LLM 自己拼 bash 命令,extension 的好处是:
- 参数有类型校验。
- 模型只需要传图片路径。
- 不需要每次在上下文里塞一大段操作说明。
- 出错面更小。
实测效果
证券软件持仓截图(6 行 × 3 列):
| 7.48% | 000651 | 格力电器 | 深A |
| 38.06% | 002245 | 蔚蓝锂芯 | 深A |
| 12.75% | 600011 | 华能国际 | 沪A |
| 9.97% | 600406 | 国电南瑞 | 沪A |
| 16.34% | 600522 | 中天科技 | 沪A |
| 7.56% | 600577 | 精达股份 | 沪A |
全部字段正确,CPU 上约 2.3 秒完成。
安装
# 1. 安装 Pi 扩展
# 2. 安装 OCR 后端(自动创建 venv,下载 EasyOCR + PyTorch,约 2GB)
# 3. 重启 Pi
使用方式
安装后,模型会获得 ocr_image 工具。你只需要给它图片路径:
请读取 /tmp/screenshot.png 里的表格。
模型会调用:
ocr_image(path="/tmp/screenshot.png", mode="auto", lang="ch_en")
参数:
| 参数 | 说明 |
|---|---|
path | 图片路径,支持 png/jpg/jpeg/bmp/webp/tiff |
mode | auto / text / table |
lang | ch / en / ch_en |
能做什么 / 不能做什么
| ✅ 能 | ❌ 不能 |
|---|---|
| 读取截图中的文字 | 描述照片里的物体 |
| 表格截图转 Markdown 表格 | 理解图表趋势 |
| 报错弹窗转文本 | 识别人脸/物体/颜色 |
| 终端截图转日志文本 | 处理复杂跨行跨列表格 |
| 中文/英文 OCR | 替代真正的 vision 模型 |
本质上,它是给 Pi 里的无 vision 模型补一双“只读文字的眼睛”。
链接
- GitHub: https://github.com/CNCSMonster/pi-local-ocr
- 完全本地运行,零 API 费用
- 支持中英文和简单表格重建
评论