教程 07 — 随手拍识图助手

Q: 不配置识图技能直接发图会怎样？

也可以识图。没有激活专属技能时，AI 会用通用能力分析图片，但输出不如专属技能结构化。建议按本教程创建 /识图 技能，获得更一致的回复格式。 ---

掏出手机拍一张照片，发给 Telegram Bot，AI 帮你看懂它。外国菜单、看不懂的公式、代码截图、路牌——拍一下就行。

这能做什么

你用手机拍一张照片
   ↓
发给 Telegram Bot
   ↓
OpenClaw 收到图片
MiniMax VL-01（视觉模型）分析图像
   ↓
用中文告诉你图里是什么

不需要打开浏览器，不需要手动上传，就是发张图。

实际场景

场景	你发什么	AI 回什么
出国旅游	日文菜单照片	每道菜的中文名称和大致价格
看论文	数学公式截图	公式的含义和推导解释
写代码	报错截图	错误原因和修复建议
买东西	商品成分表	关键成分分析，有没有你忌口的
看文件	合同某一页	这段条款的白话解释
认植物	路边花草照片	植物名称、习性、是否有毒

前置条件

完成教程 01（网关已启动）
完成教程 02（Telegram 已接入）
openclaw.json 中已配置 MiniMax（VL-01 支持图像输入）

第一步：确认视觉模型已配置

在 ~/.openclaw/openclaw.json 的 minimax.models 中加入 VL-01：

{
  "id": "MiniMax-VL-01",
  "name": "MiniMax VL-01",
  "reasoning": false,
  "input": ["text", "image"],
  "cost": { "input": 15, "output": 60, "cacheRead": 2, "cacheWrite": 10 },
  "contextWindow": 200000,
  "maxTokens": 8192
}

验证：

pnpm openclaw models list --all | grep VL
# 应看到 minimax/MiniMax-VL-01  text+image  yes

第二步：创建识图技能

新建 ~/.openclaw/workspace/skills/识图/SKILL.md：

mkdir -p ~/.openclaw/workspace/skills/识图

# 识图助手
 
用户发来了一张图片。你需要：
 
1. **仔细观察**图片的所有细节
2. **判断场景**：这是文字/公式/代码/实物/截图/其他？
3. 根据场景给出最有帮助的回应：
 
### 如果是文字/菜单/路牌/文件
- 完整转录所有文字
- 如果是外文，翻译成中文
- 用自然语言解释内容
 
### 如果是代码/截图/报错
- 识别编程语言和框架
- 解释这段代码做了什么 / 错误是什么
- 给出改进建议或修复方案
 
### 如果是公式/图表
- 用文字说明公式含义
- 解释变量代表什么
- 如果是图表，分析数据趋势
 
### 如果是实物/植物/食物
- 识别这是什么
- 给出相关背景知识（产地、用途、注意事项等）
 
## 语气
直接、简洁，先说最重要的结论，再展开细节。
全程使用中文回复。

第三步：就这样，直接用

打开 Telegram，给你的 Bot 发一张图片，同时或之后发一句话描述你想知道什么：

示例 1：日文菜单

[发一张日文菜单照片]
这些菜怎么点？有没有适合不吃辣的？

示例 2：代码报错

[发一张终端报错截图]
这个错是什么意思，怎么修？

示例 3：什么都不说，直接发图

直接发图不加文字，AI 会根据图片内容自动判断你最可能想知道什么。

进阶：出行识图套餐

创建一个专门用于旅行的技能 ~/.openclaw/workspace/skills/旅行助手/SKILL.md：

# 旅行识图助手
 
你是一位经验丰富的旅行助手，用户在旅行中会给你发各种照片。
 
## 菜单类
- 识别每道菜，中文说明食材和口味
- 标注价格（含税后大约多少人民币）
- 推荐 2-3 道适合中国游客的菜
 
## 交通类（地铁图、路牌、时刻表）
- 说明当前位置或方向
- 给出最简单的行动建议
 
## 景点类
- 识别这是哪里
- 简介历史背景（2-3句）
- 参观小贴士
 
## 购物类（价签、成分表）
- 价格换算成人民币
- 成分中有没有常见过敏原
- 值不值得买（同类商品国内价格对比）
 
全程中文，简洁实用。

工作原理

OpenClaw 收到 Telegram 图片消息后：

图片被转为 base64 格式
连同你的文字问题一起发给 MiniMax VL-01
VL-01 同时理解图像和文本
回复通过 Telegram 发回给你

整个过程通常在 3-8 秒内完成。

小技巧

一次发多张图：Telegram 支持发图集，AI 会同时分析所有图片

追问：AI 有上下文记忆，发完图可以继续问：

[发菜单图]
这道菜怎么做？
→ 第二条菜是不是有花生？我过敏
→ 那推荐什么代替？

指定语言：如果你想要英文输出，说一声就行：

[发图] answer in English

常见问题

支持哪些图片格式？

支持 JPEG、PNG、WebP、GIF（取第一帧）等主流格式。Telegram 发送的照片会自动压缩为 JPEG，截图通常为 PNG——两种格式都完全支持。

图片识别的准确率怎么样？

MiniMax VL-01 在文字识别（OCR）、场景理解、代码识别方面表现较好，对清晰照片识别准确率高。模糊、低光照、极小字体会降低准确率。拍照时保持稳定、光线充足效果最佳。

可以识别截图里的代码报错吗？

可以，这是最实用的场景之一。发一张终端截图，AI 能识别错误信息、定位问题代码并给出修复建议。支持识别绝大多数主流编程语言的错误格式。

图片大小有限制吗？

Telegram 照片模式最大约 10MB。OpenClaw 接收后会自动处理尺寸，通常不需要手动压缩。超大分辨率图片（超过 4000px）建议先适当压缩以节省 token。

不配置识图技能直接发图会怎样？

也可以识图。没有激活专属技能时，AI 会用通用能力分析图片，但输出不如专属技能结构化。建议按本教程创建 /识图 技能，获得更一致的回复格式。

为什么这个有意思

这是 OpenClaw 把消息渠道（Telegram）、视觉 AI（MiniMax VL-01）、技能系统（SKILL.md）三者串联的典型案例。

以前你要识图，需要打开 ChatGPT 网页→上传图片→等待。现在只需要在 Telegram 里发一张图，AI 自动处理，就像在跟一个真人助手发微信一样自然。

这种"把 AI 嵌入你日常使用的工具"，才是 OpenClaw 最核心的设计理念。