教程 07

教程 07 — 隨手拍識圖助手

掏出手機拍一張照片,發給 Telegram Bot,AI 幫你看懂它。 外國菜單、看不懂的公式、代碼截圖、路牌——拍一下就行。


這能做什麼

你用手機拍一張照片
   ↓
發給 Telegram Bot
   ↓
OpenClaw 收到圖片
MiniMax VL-01(視覺模型)分析圖像
   ↓
用中文告訴你圖裡是什麼

不需要打開瀏覽器,不需要手動上傳,就是發張圖。


實際場景

場景 你發什麼 AI 回什麼
出國旅遊 日文菜單照片 每道菜的中文名稱和大致價格
看論文 數學公式截圖 公式的含義和推導解釋
寫代碼 報錯截圖 錯誤原因和修復建議
買東西 商品成分表 關鍵成分分析,有沒有你忌口的
看檔案 合約某一頁 這段條款的白話解釋
認植物 路邊花草照片 植物名稱、習性、是否有毒

前置條件

  • 完成教程 01(網關已啟動)
  • 完成教程 02(Telegram 已接入)
  • openclaw.json 中已配置 MiniMax(VL-01 支援圖像輸入)

第一步:確認視覺模型已配置

~/.openclaw/openclaw.jsonminimax.models 中加入 VL-01:

{
  "id": "MiniMax-VL-01",
  "name": "MiniMax VL-01",
  "reasoning": false,
  "input": ["text", "image"],
  "cost": { "input": 15, "output": 60, "cacheRead": 2, "cacheWrite": 10 },
  "contextWindow": 200000,
  "maxTokens": 8192
}

驗證:

pnpm openclaw models list --all | grep VL
# 應看到 minimax/MiniMax-VL-01  text+image  yes

第二步:建立識圖技能

新建 ~/.openclaw/workspace/skills/識圖/SKILL.md

mkdir -p ~/.openclaw/workspace/skills/識圖
# 識圖助手
 
使用者發來了一張圖片。你需要:
 
1. **仔細觀察**圖片的所有細節
2. **判斷場景**:這是文字/公式/代碼/實物/截圖/其他?
3. 根據場景給出最有幫助的回應:
 
### 如果是文字/菜單/路牌/檔案
- 完整轉錄所有文字
- 如果是外文,翻譯成中文
- 用自然語言解釋內容
 
### 如果是代碼/截圖/報錯
- 識別程式語言和框架
- 解釋這段代碼做了什麼 / 錯誤是什麼
- 給出改進建議或修復方案
 
### 如果是公式/圖表
- 用文字說明公式含義
- 解釋變數代表什麼
- 如果是圖表,分析資料趨勢
 
### 如果是實物/植物/食物
- 識別這是什麼
- 給出相關背景知識(產地、用途、注意事項等)
 
## 語氣
直接、簡潔,先說最重要的結論,再展開細節。
全程使用中文回覆。

第三步:就這樣,直接用

打開 Telegram,給你的 Bot 發一張圖片,同時或之後發一句話描述你想知道什麼:

示例 1:日文菜單

[發一張日文菜單照片]
這些菜怎麼點?有沒有適合不吃辣的?

示例 2:代碼報錯

[發一張終端報錯截圖]
這個錯是什麼意思,怎麼修?

示例 3:什麼都不說,直接發圖

直接發圖不加文字,AI 會根據圖片內容自動判斷你最可能想知道什麼。


進階:出行識圖套餐

建立一個專門用於旅行的技能 ~/.openclaw/workspace/skills/旅行助手/SKILL.md

# 旅行識圖助手
 
你是一位經驗豐富的旅行助手,使用者在旅行中會給你發各種照片。
 
## 菜單類
- 識別每道菜,中文說明食材和口味
- 標注價格(含稅後大約多少台幣)
- 推薦 2-3 道適合台灣遊客的菜
 
## 交通類(地鐵圖、路牌、時刻表)
- 說明當前位置或方向
- 給出最簡單的行動建議
 
## 景點類
- 識別這是哪裡
- 簡介歷史背景(2-3句)
- 參觀小貼士
 
## 購物類(價籤、成分表)
- 價格換算成台幣
- 成分中有沒有常見過敏原
- 值不值得買(同類商品台灣價格對比)
 
全程中文,簡潔實用。

工作原理

OpenClaw 收到 Telegram 圖片訊息後:

  1. 圖片被轉為 base64 格式
  2. 連同你的文字問題一起發給 MiniMax VL-01
  3. VL-01 同時理解圖像和文本
  4. 回覆通過 Telegram 發回給你

整個過程通常在 3-8 秒內完成。


小技巧

一次發多張圖:Telegram 支援發圖集,AI 會同時分析所有圖片

追問:AI 有上下文記憶,發完圖可以繼續問:

[發菜單圖]
這道菜怎麼做?
→ 第二條菜是不是有花生?我過敏
→ 那推薦什麼代替?

指定語言:如果你想要英文輸出,說一聲就行:

[發圖] answer in English

常見問題

支援哪些圖片格式?

支援 JPEG、PNG、WebP、GIF(取第一幀)等主流格式。Telegram 發送的照片會自動壓縮為 JPEG,截圖通常為 PNG——兩種格式都完全支援。

圖片識別的準確率怎麼樣?

MiniMax VL-01 在文字識別(OCR)、場景理解、代碼識別方面表現較好,對清晰照片識別準確率高。模糊、低光照、極小字體會降低準確率。拍照時保持穩定、光線充足效果最佳。

可以識別截圖裡的代碼報錯嗎?

可以,這是最實用的場景之一。發一張終端截圖,AI 能識別錯誤資訊、定位問題代碼並給出修復建議。支援識別絕大多數主流程式語言的錯誤格式。

圖片大小有限制嗎?

Telegram 照片模式最大約 10MB。OpenClaw 接收後會自動處理尺寸,通常不需要手動壓縮。超大解析度圖片(超過 4000px)建議先適當壓縮以節省 token。

不配置識圖技能直接發圖會怎樣?

也可以識圖。沒有啟用專屬技能時,AI 會用通用能力分析圖片,但輸出不如專屬技能結構化。建議按本教程建立 /識圖 技能,取得更一致的回覆格式。


為什麼這個有意思

這是 OpenClaw 把訊息渠道(Telegram)、視覺 AI(MiniMax VL-01)、技能系統(SKILL.md)三者串聯的典型案例。

以前你要識圖,需要打開 ChatGPT 網頁→上傳圖片→等待。 現在只需要在 Telegram 裡發一張圖,AI 自動處理,就像在跟一個真人助手發訊息一樣自然。

這種「把 AI 嵌入你日常使用的工具」,才是 OpenClaw 最核心的設計理念。

关注我们,获取最新 AI 动态

在 X 上关注 @lanmiaoai,第一时间获取教程更新、AI 工具推荐。

立即关注