教程 07 — 隨手拍識圖助手

掏出手機拍一張照片，發給 Telegram Bot，AI 幫你看懂它。外國菜單、看不懂的公式、代碼截圖、路牌——拍一下就行。

這能做什麼

你用手機拍一張照片
   ↓
發給 Telegram Bot
   ↓
OpenClaw 收到圖片
MiniMax VL-01（視覺模型）分析圖像
   ↓
用中文告訴你圖裡是什麼

不需要打開瀏覽器，不需要手動上傳，就是發張圖。

實際場景

場景	你發什麼	AI 回什麼
出國旅遊	日文菜單照片	每道菜的中文名稱和大致價格
看論文	數學公式截圖	公式的含義和推導解釋
寫代碼	報錯截圖	錯誤原因和修復建議
買東西	商品成分表	關鍵成分分析，有沒有你忌口的
看檔案	合約某一頁	這段條款的白話解釋
認植物	路邊花草照片	植物名稱、習性、是否有毒

前置條件

完成教程 01（網關已啟動）
完成教程 02（Telegram 已接入）
openclaw.json 中已配置 MiniMax（VL-01 支援圖像輸入）

第一步：確認視覺模型已配置

在 ~/.openclaw/openclaw.json 的 minimax.models 中加入 VL-01：

{
  "id": "MiniMax-VL-01",
  "name": "MiniMax VL-01",
  "reasoning": false,
  "input": ["text", "image"],
  "cost": { "input": 15, "output": 60, "cacheRead": 2, "cacheWrite": 10 },
  "contextWindow": 200000,
  "maxTokens": 8192
}

驗證：

pnpm openclaw models list --all | grep VL
# 應看到 minimax/MiniMax-VL-01  text+image  yes

第二步：建立識圖技能

新建 ~/.openclaw/workspace/skills/識圖/SKILL.md：

mkdir -p ~/.openclaw/workspace/skills/識圖

# 識圖助手
 
使用者發來了一張圖片。你需要：
 
1. **仔細觀察**圖片的所有細節
2. **判斷場景**：這是文字/公式/代碼/實物/截圖/其他？
3. 根據場景給出最有幫助的回應：
 
### 如果是文字/菜單/路牌/檔案
- 完整轉錄所有文字
- 如果是外文，翻譯成中文
- 用自然語言解釋內容
 
### 如果是代碼/截圖/報錯
- 識別程式語言和框架
- 解釋這段代碼做了什麼 / 錯誤是什麼
- 給出改進建議或修復方案
 
### 如果是公式/圖表
- 用文字說明公式含義
- 解釋變數代表什麼
- 如果是圖表，分析資料趨勢
 
### 如果是實物/植物/食物
- 識別這是什麼
- 給出相關背景知識（產地、用途、注意事項等）
 
## 語氣
直接、簡潔，先說最重要的結論，再展開細節。
全程使用中文回覆。

第三步：就這樣，直接用

打開 Telegram，給你的 Bot 發一張圖片，同時或之後發一句話描述你想知道什麼：

示例 1：日文菜單

[發一張日文菜單照片]
這些菜怎麼點？有沒有適合不吃辣的？

示例 2：代碼報錯

[發一張終端報錯截圖]
這個錯是什麼意思，怎麼修？

示例 3：什麼都不說，直接發圖

直接發圖不加文字，AI 會根據圖片內容自動判斷你最可能想知道什麼。

進階：出行識圖套餐

建立一個專門用於旅行的技能 ~/.openclaw/workspace/skills/旅行助手/SKILL.md：

# 旅行識圖助手
 
你是一位經驗豐富的旅行助手，使用者在旅行中會給你發各種照片。
 
## 菜單類
- 識別每道菜，中文說明食材和口味
- 標注價格（含稅後大約多少台幣）
- 推薦 2-3 道適合台灣遊客的菜
 
## 交通類（地鐵圖、路牌、時刻表）
- 說明當前位置或方向
- 給出最簡單的行動建議
 
## 景點類
- 識別這是哪裡
- 簡介歷史背景（2-3句）
- 參觀小貼士
 
## 購物類（價籤、成分表）
- 價格換算成台幣
- 成分中有沒有常見過敏原
- 值不值得買（同類商品台灣價格對比）
 
全程中文，簡潔實用。

工作原理

OpenClaw 收到 Telegram 圖片訊息後：

圖片被轉為 base64 格式
連同你的文字問題一起發給 MiniMax VL-01
VL-01 同時理解圖像和文本
回覆通過 Telegram 發回給你

整個過程通常在 3-8 秒內完成。

小技巧

一次發多張圖：Telegram 支援發圖集，AI 會同時分析所有圖片

追問：AI 有上下文記憶，發完圖可以繼續問：

[發菜單圖]
這道菜怎麼做？
→ 第二條菜是不是有花生？我過敏
→ 那推薦什麼代替？

指定語言：如果你想要英文輸出，說一聲就行：

[發圖] answer in English

常見問題

支援哪些圖片格式？

支援 JPEG、PNG、WebP、GIF（取第一幀）等主流格式。Telegram 發送的照片會自動壓縮為 JPEG，截圖通常為 PNG——兩種格式都完全支援。

圖片識別的準確率怎麼樣？

MiniMax VL-01 在文字識別（OCR）、場景理解、代碼識別方面表現較好，對清晰照片識別準確率高。模糊、低光照、極小字體會降低準確率。拍照時保持穩定、光線充足效果最佳。

可以識別截圖裡的代碼報錯嗎？

可以，這是最實用的場景之一。發一張終端截圖，AI 能識別錯誤資訊、定位問題代碼並給出修復建議。支援識別絕大多數主流程式語言的錯誤格式。

圖片大小有限制嗎？

Telegram 照片模式最大約 10MB。OpenClaw 接收後會自動處理尺寸，通常不需要手動壓縮。超大解析度圖片（超過 4000px）建議先適當壓縮以節省 token。

不配置識圖技能直接發圖會怎樣？

也可以識圖。沒有啟用專屬技能時，AI 會用通用能力分析圖片，但輸出不如專屬技能結構化。建議按本教程建立 /識圖 技能，取得更一致的回覆格式。

為什麼這個有意思

這是 OpenClaw 把訊息渠道（Telegram）、視覺 AI（MiniMax VL-01）、技能系統（SKILL.md）三者串聯的典型案例。

以前你要識圖，需要打開 ChatGPT 網頁→上傳圖片→等待。現在只需要在 Telegram 裡發一張圖，AI 自動處理，就像在跟一個真人助手發訊息一樣自然。

這種「把 AI 嵌入你日常使用的工具」，才是 OpenClaw 最核心的設計理念。