教程 07 — 隨手拍識圖助手
掏出手機拍一張照片,發給 Telegram Bot,AI 幫你看懂它。 外國菜單、看不懂的公式、代碼截圖、路牌——拍一下就行。
這能做什麼
你用手機拍一張照片
↓
發給 Telegram Bot
↓
OpenClaw 收到圖片
MiniMax VL-01(視覺模型)分析圖像
↓
用中文告訴你圖裡是什麼
不需要打開瀏覽器,不需要手動上傳,就是發張圖。
實際場景
| 場景 | 你發什麼 | AI 回什麼 |
|---|---|---|
| 出國旅遊 | 日文菜單照片 | 每道菜的中文名稱和大致價格 |
| 看論文 | 數學公式截圖 | 公式的含義和推導解釋 |
| 寫代碼 | 報錯截圖 | 錯誤原因和修復建議 |
| 買東西 | 商品成分表 | 關鍵成分分析,有沒有你忌口的 |
| 看檔案 | 合約某一頁 | 這段條款的白話解釋 |
| 認植物 | 路邊花草照片 | 植物名稱、習性、是否有毒 |
前置條件
第一步:確認視覺模型已配置
在 ~/.openclaw/openclaw.json 的 minimax.models 中加入 VL-01:
{
"id": "MiniMax-VL-01",
"name": "MiniMax VL-01",
"reasoning": false,
"input": ["text", "image"],
"cost": { "input": 15, "output": 60, "cacheRead": 2, "cacheWrite": 10 },
"contextWindow": 200000,
"maxTokens": 8192
}驗證:
pnpm openclaw models list --all | grep VL
# 應看到 minimax/MiniMax-VL-01 text+image yes第二步:建立識圖技能
新建 ~/.openclaw/workspace/skills/識圖/SKILL.md:
mkdir -p ~/.openclaw/workspace/skills/識圖# 識圖助手
使用者發來了一張圖片。你需要:
1. **仔細觀察**圖片的所有細節
2. **判斷場景**:這是文字/公式/代碼/實物/截圖/其他?
3. 根據場景給出最有幫助的回應:
### 如果是文字/菜單/路牌/檔案
- 完整轉錄所有文字
- 如果是外文,翻譯成中文
- 用自然語言解釋內容
### 如果是代碼/截圖/報錯
- 識別程式語言和框架
- 解釋這段代碼做了什麼 / 錯誤是什麼
- 給出改進建議或修復方案
### 如果是公式/圖表
- 用文字說明公式含義
- 解釋變數代表什麼
- 如果是圖表,分析資料趨勢
### 如果是實物/植物/食物
- 識別這是什麼
- 給出相關背景知識(產地、用途、注意事項等)
## 語氣
直接、簡潔,先說最重要的結論,再展開細節。
全程使用中文回覆。第三步:就這樣,直接用
打開 Telegram,給你的 Bot 發一張圖片,同時或之後發一句話描述你想知道什麼:
示例 1:日文菜單
[發一張日文菜單照片]
這些菜怎麼點?有沒有適合不吃辣的?
示例 2:代碼報錯
[發一張終端報錯截圖]
這個錯是什麼意思,怎麼修?
示例 3:什麼都不說,直接發圖
直接發圖不加文字,AI 會根據圖片內容自動判斷你最可能想知道什麼。
進階:出行識圖套餐
建立一個專門用於旅行的技能 ~/.openclaw/workspace/skills/旅行助手/SKILL.md:
# 旅行識圖助手
你是一位經驗豐富的旅行助手,使用者在旅行中會給你發各種照片。
## 菜單類
- 識別每道菜,中文說明食材和口味
- 標注價格(含稅後大約多少台幣)
- 推薦 2-3 道適合台灣遊客的菜
## 交通類(地鐵圖、路牌、時刻表)
- 說明當前位置或方向
- 給出最簡單的行動建議
## 景點類
- 識別這是哪裡
- 簡介歷史背景(2-3句)
- 參觀小貼士
## 購物類(價籤、成分表)
- 價格換算成台幣
- 成分中有沒有常見過敏原
- 值不值得買(同類商品台灣價格對比)
全程中文,簡潔實用。工作原理
OpenClaw 收到 Telegram 圖片訊息後:
- 圖片被轉為 base64 格式
- 連同你的文字問題一起發給 MiniMax VL-01
- VL-01 同時理解圖像和文本
- 回覆通過 Telegram 發回給你
整個過程通常在 3-8 秒內完成。
小技巧
一次發多張圖:Telegram 支援發圖集,AI 會同時分析所有圖片
追問:AI 有上下文記憶,發完圖可以繼續問:
[發菜單圖]
這道菜怎麼做?
→ 第二條菜是不是有花生?我過敏
→ 那推薦什麼代替?
指定語言:如果你想要英文輸出,說一聲就行:
[發圖] answer in English
常見問題
支援哪些圖片格式?
支援 JPEG、PNG、WebP、GIF(取第一幀)等主流格式。Telegram 發送的照片會自動壓縮為 JPEG,截圖通常為 PNG——兩種格式都完全支援。
圖片識別的準確率怎麼樣?
MiniMax VL-01 在文字識別(OCR)、場景理解、代碼識別方面表現較好,對清晰照片識別準確率高。模糊、低光照、極小字體會降低準確率。拍照時保持穩定、光線充足效果最佳。
可以識別截圖裡的代碼報錯嗎?
可以,這是最實用的場景之一。發一張終端截圖,AI 能識別錯誤資訊、定位問題代碼並給出修復建議。支援識別絕大多數主流程式語言的錯誤格式。
圖片大小有限制嗎?
Telegram 照片模式最大約 10MB。OpenClaw 接收後會自動處理尺寸,通常不需要手動壓縮。超大解析度圖片(超過 4000px)建議先適當壓縮以節省 token。
不配置識圖技能直接發圖會怎樣?
也可以識圖。沒有啟用專屬技能時,AI 會用通用能力分析圖片,但輸出不如專屬技能結構化。建議按本教程建立 /識圖 技能,取得更一致的回覆格式。
為什麼這個有意思
這是 OpenClaw 把訊息渠道(Telegram)、視覺 AI(MiniMax VL-01)、技能系統(SKILL.md)三者串聯的典型案例。
以前你要識圖,需要打開 ChatGPT 網頁→上傳圖片→等待。 現在只需要在 Telegram 裡發一張圖,AI 自動處理,就像在跟一個真人助手發訊息一樣自然。
這種「把 AI 嵌入你日常使用的工具」,才是 OpenClaw 最核心的設計理念。