チュートリアル 07 — 写真でわかる!画像認識アシスタント
スマートフォンで写真を撮ってTelegramボットに送るだけで、AIが内容を分析します。 外国語のメニュー、難しい数式、コードのスクリーンショット、標識——写真一枚で解決。
これで何ができるか
スマートフォンで写真を撮る
↓
Telegramボットに送信
↓
OpenClawが画像を受信
MiniMax VL-01(ビジョンモデル)が画像を分析
↓
日本語で画像の内容を説明
ブラウザを開く必要なし、手動アップロード不要、写真を送るだけです。
実際のユースケース
| シナリオ | あなたが送るもの | AIが返すもの |
|---|---|---|
| 海外旅行 | 英語/現地語のメニュー写真 | 各料理の日本語名と大まかな価格 |
| 論文を読む | 数式のスクリーンショット | 数式の意味と導出の説明 |
| コーディング | エラーのスクリーンショット | エラーの原因と修正案 |
| 買い物 | 商品の成分表 | 主要成分の分析、アレルゲンの確認 |
| 書類確認 | 契約書の一ページ | その条項の平易な説明 |
| 植物の識別 | 道端の花や草の写真 | 植物名、特性、毒性の有無 |
前提条件
- チュートリアル 01完了(ゲートウェイが起動している)
- チュートリアル 02完了(Telegramが接続されている)
openclaw.jsonにMiniMaxが設定済み(VL-01が画像入力をサポート)
ステップ1:ビジョンモデルが設定されているか確認
~/.openclaw/openclaw.json の minimax.models にVL-01を追加します:
{
"id": "MiniMax-VL-01",
"name": "MiniMax VL-01",
"reasoning": false,
"input": ["text", "image"],
"cost": { "input": 15, "output": 60, "cacheRead": 2, "cacheWrite": 10 },
"contextWindow": 200000,
"maxTokens": 8192
}確認:
pnpm openclaw models list --all | grep VL
# minimax/MiniMax-VL-01 text+image yes が表示されるはずですステップ2:画像認識Skillの作成
~/.openclaw/workspace/skills/画像認識/SKILL.md を新規作成します:
mkdir -p ~/.openclaw/workspace/skills/画像認識# 画像認識アシスタント
ユーザーが画像を送ってきました。以下を行ってください:
1. **注意深く観察**する — 画像のすべての詳細
2. **シナリオを判断**する — 文字/数式/コード/実物/スクリーンショット/その他?
3. シナリオに応じて最も役立つ回答を提供する:
### 文字/メニュー/標識/書類の場合
- すべての文字を完全に転記する
- 外国語の場合は日本語に翻訳する
- 内容を自然な言葉で説明する
### コード/スクリーンショット/エラーの場合
- プログラミング言語とフレームワークを識別する
- このコードが何をしているか / エラーは何かを説明する
- 改善案または修正方法を提示する
### 数式/グラフの場合
- 数式の意味を文章で説明する
- 変数が何を表しているかを説明する
- グラフの場合はデータのトレンドを分析する
### 実物/植物/食べ物の場合
- それが何であるかを識別する
- 関連する背景知識を提供する(産地、用途、注意事項など)
## トーン
直接的で簡潔に、最も重要な結論を先に述べてから詳細を展開する。
全文日本語で返信する。ステップ3:使い方
Telegramを開き、ボットに画像を送り、同時または直後に知りたいことを一言添えます:
例1:英語のメニュー
[英語のメニューの写真を送信]
これらの料理はどれを注文すればいいですか?辛くないものはありますか?
例2:コードのエラー
[ターミナルのエラースクリーンショットを送信]
このエラーはどういう意味ですか?どうすれば修正できますか?
例3:何も言わずに画像だけ送る
画像のみを送信して文章を添えなくても、AIは画像の内容から最も知りたいことを自動的に判断します。
応用:旅行向け画像認識パッケージ
旅行専用のSkill ~/.openclaw/workspace/skills/旅行アシスタント/SKILL.md を作成します:
# 旅行画像認識アシスタント
あなたは経験豊富な旅行アシスタントで、ユーザーが旅行中に様々な写真を送ってきます。
## メニュー類
- 各料理を識別し、食材と味を日本語で説明する
- 価格(税込後のおおよその日本円)を示す
- 日本人旅行者に適した2〜3品を推薦する
## 交通類(地下鉄マップ、標識、時刻表)
- 現在の場所や方向を説明する
- 最もシンプルな行動のアドバイスを提供する
## 観光地類
- それがどこかを識別する
- 歴史的背景を簡単に説明する(2〜3文)
- 観光のヒントを提供する
## 買い物類(値札、成分表)
- 価格を日本円に換算する
- 成分の中に一般的なアレルゲンが含まれているか確認する
- 購入する価値があるか(国内での同類商品との価格比較)
全文日本語、簡潔で実用的に。仕組み
OpenClawがTelegramの画像メッセージを受信すると:
- 画像がbase64形式に変換される
- あなたのテキストの質問と一緒にMiniMax VL-01に送信される
- VL-01が画像とテキストを同時に理解する
- Telegram経由で返信が送られる
このプロセス全体は通常 3〜8秒 で完了します。
小技
複数の画像を一度に送信:Telegramは画像グループの送信をサポートし、AIはすべての画像を同時に分析します
追加質問:AIにはコンテキスト記憶があるため、画像を送った後に続けて質問できます:
[メニューの画像を送信]
この料理はどうやって作りますか?
→ 2番目の料理にピーナッツは含まれていますか?アレルギーがあります
→ では何を代わりに注文すればいいですか?
言語の指定:英語で出力したい場合は、一言伝えるだけです:
[画像を送信] answer in English
よくある質問
どの画像形式をサポートしていますか?
JPEG、PNG、WebP、GIF(最初のフレーム)などの主要な形式をサポートしています。Telegramで送信された写真は自動的にJPEGに圧縮され、スクリーンショットは通常PNGです。どちらの形式も完全にサポートされています。
画像認識の精度はどのくらいですか?
MiniMax VL-01はテキスト認識(OCR)、シーン理解、コード認識において良好なパフォーマンスを発揮し、鮮明な写真に対する認識精度が高いです。ぼやけた写真、低照度、非常に小さな文字は精度を下げる可能性があります。撮影時は安定を保ち、十分な照明で撮影すると最良の結果が得られます。
スクリーンショット内のコードエラーを認識できますか?
はい、これが最も実用的なシナリオの一つです。ターミナルのスクリーンショットを送ると、AIはエラーメッセージを識別し、問題のあるコードを特定し、修正案を提示します。ほとんどの主要プログラミング言語のエラー形式を認識することができます。
画像サイズに制限はありますか?
Telegramの写真モードで最大約10MBです。OpenClawは受信後に自動的にサイズを処理するため、通常は手動で圧縮する必要はありません。超高解像度の画像(4000pxを超える)はtoken節約のため、事前に適切に圧縮することを推奨します。
画像認識Skillを設定せずに画像を送るとどうなりますか?
画像認識は可能です。専用Skillが有効になっていない場合、AIは汎用能力で画像を分析しますが、専用Skillほど構造化された出力にはなりません。本チュートリアルに従って /画像認識 Skillを作成することで、より一貫した返信形式が得られます。
なぜこれが面白いのか
これはOpenClawがメッセージチャンネル(Telegram)、ビジョンAI(MiniMax VL-01)、Skillシステム(SKILL.md)の三つを連携させた典型的なユースケースです。
以前は画像認識のためにChatGPTのWebページを開き→画像をアップロード→待機する必要がありました。 今はTelegramで写真を送るだけで、AIが自動処理します。まるで本物の人間アシスタントにメッセージを送るように自然です。
「AIを日常使用しているツールに組み込む」これがOpenClawの最も核心的な設計理念です。