教程 07

教程 07 — 随手拍识图助手

掏出手机拍一张照片,发给 Telegram Bot,AI 帮你看懂它。 外国菜单、看不懂的公式、代码截图、路牌——拍一下就行。


这能做什么

你用手机拍一张照片
   ↓
发给 Telegram Bot
   ↓
OpenClaw 收到图片
MiniMax VL-01(视觉模型)分析图像
   ↓
用中文告诉你图里是什么

不需要打开浏览器,不需要手动上传,就是发张图。


实际场景

场景 你发什么 AI 回什么
出国旅游 日文菜单照片 每道菜的中文名称和大致价格
看论文 数学公式截图 公式的含义和推导解释
写代码 报错截图 错误原因和修复建议
买东西 商品成分表 关键成分分析,有没有你忌口的
看文件 合同某一页 这段条款的白话解释
认植物 路边花草照片 植物名称、习性、是否有毒

前置条件

  • 完成教程 01(网关已启动)
  • 完成教程 02(Telegram 已接入)
  • openclaw.json 中已配置 MiniMax(VL-01 支持图像输入)

第一步:确认视觉模型已配置

~/.openclaw/openclaw.jsonminimax.models 中加入 VL-01:

{
  "id": "MiniMax-VL-01",
  "name": "MiniMax VL-01",
  "reasoning": false,
  "input": ["text", "image"],
  "cost": { "input": 15, "output": 60, "cacheRead": 2, "cacheWrite": 10 },
  "contextWindow": 200000,
  "maxTokens": 8192
}

验证:

pnpm openclaw models list --all | grep VL
# 应看到 minimax/MiniMax-VL-01  text+image  yes

第二步:创建识图技能

新建 ~/.openclaw/workspace/skills/识图/SKILL.md

mkdir -p ~/.openclaw/workspace/skills/识图
# 识图助手
 
用户发来了一张图片。你需要:
 
1. **仔细观察**图片的所有细节
2. **判断场景**:这是文字/公式/代码/实物/截图/其他?
3. 根据场景给出最有帮助的回应:
 
### 如果是文字/菜单/路牌/文件
- 完整转录所有文字
- 如果是外文,翻译成中文
- 用自然语言解释内容
 
### 如果是代码/截图/报错
- 识别编程语言和框架
- 解释这段代码做了什么 / 错误是什么
- 给出改进建议或修复方案
 
### 如果是公式/图表
- 用文字说明公式含义
- 解释变量代表什么
- 如果是图表,分析数据趋势
 
### 如果是实物/植物/食物
- 识别这是什么
- 给出相关背景知识(产地、用途、注意事项等)
 
## 语气
直接、简洁,先说最重要的结论,再展开细节。
全程使用中文回复。

第三步:就这样,直接用

打开 Telegram,给你的 Bot 发一张图片,同时或之后发一句话描述你想知道什么:

示例 1:日文菜单

[发一张日文菜单照片]
这些菜怎么点?有没有适合不吃辣的?

示例 2:代码报错

[发一张终端报错截图]
这个错是什么意思,怎么修?

示例 3:什么都不说,直接发图

直接发图不加文字,AI 会根据图片内容自动判断你最可能想知道什么。


进阶:出行识图套餐

创建一个专门用于旅行的技能 ~/.openclaw/workspace/skills/旅行助手/SKILL.md

# 旅行识图助手
 
你是一位经验丰富的旅行助手,用户在旅行中会给你发各种照片。
 
## 菜单类
- 识别每道菜,中文说明食材和口味
- 标注价格(含税后大约多少人民币)
- 推荐 2-3 道适合中国游客的菜
 
## 交通类(地铁图、路牌、时刻表)
- 说明当前位置或方向
- 给出最简单的行动建议
 
## 景点类
- 识别这是哪里
- 简介历史背景(2-3句)
- 参观小贴士
 
## 购物类(价签、成分表)
- 价格换算成人民币
- 成分中有没有常见过敏原
- 值不值得买(同类商品国内价格对比)
 
全程中文,简洁实用。

工作原理

OpenClaw 收到 Telegram 图片消息后:

  1. 图片被转为 base64 格式
  2. 连同你的文字问题一起发给 MiniMax VL-01
  3. VL-01 同时理解图像和文本
  4. 回复通过 Telegram 发回给你

整个过程通常在 3-8 秒内完成。


小技巧

一次发多张图:Telegram 支持发图集,AI 会同时分析所有图片

追问:AI 有上下文记忆,发完图可以继续问:

[发菜单图]
这道菜怎么做?
→ 第二条菜是不是有花生?我过敏
→ 那推荐什么代替?

指定语言:如果你想要英文输出,说一声就行:

[发图] answer in English

常见问题

支持哪些图片格式?

支持 JPEG、PNG、WebP、GIF(取第一帧)等主流格式。Telegram 发送的照片会自动压缩为 JPEG,截图通常为 PNG——两种格式都完全支持。

图片识别的准确率怎么样?

MiniMax VL-01 在文字识别(OCR)、场景理解、代码识别方面表现较好,对清晰照片识别准确率高。模糊、低光照、极小字体会降低准确率。拍照时保持稳定、光线充足效果最佳。

可以识别截图里的代码报错吗?

可以,这是最实用的场景之一。发一张终端截图,AI 能识别错误信息、定位问题代码并给出修复建议。支持识别绝大多数主流编程语言的错误格式。

图片大小有限制吗?

Telegram 照片模式最大约 10MB。OpenClaw 接收后会自动处理尺寸,通常不需要手动压缩。超大分辨率图片(超过 4000px)建议先适当压缩以节省 token。

不配置识图技能直接发图会怎样?

也可以识图。没有激活专属技能时,AI 会用通用能力分析图片,但输出不如专属技能结构化。建议按本教程创建 /识图 技能,获得更一致的回复格式。


为什么这个有意思

这是 OpenClaw 把消息渠道(Telegram)、视觉 AI(MiniMax VL-01)、技能系统(SKILL.md)三者串联的典型案例。

以前你要识图,需要打开 ChatGPT 网页→上传图片→等待。 现在只需要在 Telegram 里发一张图,AI 自动处理,就像在跟一个真人助手发微信一样自然。

这种"把 AI 嵌入你日常使用的工具",才是 OpenClaw 最核心的设计理念。

关注我们,获取最新 AI 动态

在 X 上关注 @lanmiaoai,第一时间获取教程更新、AI 工具推荐。

立即关注