チュートリアル 07 — 写真でわかる！画像認識アシスタント

スマートフォンで写真を撮ってTelegramボットに送るだけで、AIが内容を分析します。外国語のメニュー、難しい数式、コードのスクリーンショット、標識——写真一枚で解決。

これで何ができるか

スマートフォンで写真を撮る
   ↓
Telegramボットに送信
   ↓
OpenClawが画像を受信
MiniMax VL-01（ビジョンモデル）が画像を分析
   ↓
日本語で画像の内容を説明

ブラウザを開く必要なし、手動アップロード不要、写真を送るだけです。

実際のユースケース

シナリオ	あなたが送るもの	AIが返すもの
海外旅行	英語/現地語のメニュー写真	各料理の日本語名と大まかな価格
論文を読む	数式のスクリーンショット	数式の意味と導出の説明
コーディング	エラーのスクリーンショット	エラーの原因と修正案
買い物	商品の成分表	主要成分の分析、アレルゲンの確認
書類確認	契約書の一ページ	その条項の平易な説明
植物の識別	道端の花や草の写真	植物名、特性、毒性の有無

前提条件

チュートリアル 01完了（ゲートウェイが起動している）
チュートリアル 02完了（Telegramが接続されている）
openclaw.json にMiniMaxが設定済み（VL-01が画像入力をサポート）

ステップ1：ビジョンモデルが設定されているか確認

~/.openclaw/openclaw.json の minimax.models にVL-01を追加します：

{
  "id": "MiniMax-VL-01",
  "name": "MiniMax VL-01",
  "reasoning": false,
  "input": ["text", "image"],
  "cost": { "input": 15, "output": 60, "cacheRead": 2, "cacheWrite": 10 },
  "contextWindow": 200000,
  "maxTokens": 8192
}

確認：

pnpm openclaw models list --all | grep VL
# minimax/MiniMax-VL-01  text+image  yes が表示されるはずです

ステップ2：画像認識Skillの作成

~/.openclaw/workspace/skills/画像認識/SKILL.md を新規作成します：

mkdir -p ~/.openclaw/workspace/skills/画像認識

# 画像認識アシスタント
 
ユーザーが画像を送ってきました。以下を行ってください：
 
1. **注意深く観察**する — 画像のすべての詳細
2. **シナリオを判断**する — 文字/数式/コード/実物/スクリーンショット/その他？
3. シナリオに応じて最も役立つ回答を提供する：
 
### 文字/メニュー/標識/書類の場合
- すべての文字を完全に転記する
- 外国語の場合は日本語に翻訳する
- 内容を自然な言葉で説明する
 
### コード/スクリーンショット/エラーの場合
- プログラミング言語とフレームワークを識別する
- このコードが何をしているか / エラーは何かを説明する
- 改善案または修正方法を提示する
 
### 数式/グラフの場合
- 数式の意味を文章で説明する
- 変数が何を表しているかを説明する
- グラフの場合はデータのトレンドを分析する
 
### 実物/植物/食べ物の場合
- それが何であるかを識別する
- 関連する背景知識を提供する（産地、用途、注意事項など）
 
## トーン
直接的で簡潔に、最も重要な結論を先に述べてから詳細を展開する。
全文日本語で返信する。

ステップ3：使い方

Telegramを開き、ボットに画像を送り、同時または直後に知りたいことを一言添えます：

例1：英語のメニュー

[英語のメニューの写真を送信]
これらの料理はどれを注文すればいいですか？辛くないものはありますか？

例2：コードのエラー

[ターミナルのエラースクリーンショットを送信]
このエラーはどういう意味ですか？どうすれば修正できますか？

例3：何も言わずに画像だけ送る

画像のみを送信して文章を添えなくても、AIは画像の内容から最も知りたいことを自動的に判断します。

応用：旅行向け画像認識パッケージ

旅行専用のSkill ~/.openclaw/workspace/skills/旅行アシスタント/SKILL.md を作成します：

# 旅行画像認識アシスタント
 
あなたは経験豊富な旅行アシスタントで、ユーザーが旅行中に様々な写真を送ってきます。
 
## メニュー類
- 各料理を識別し、食材と味を日本語で説明する
- 価格（税込後のおおよその日本円）を示す
- 日本人旅行者に適した2〜3品を推薦する
 
## 交通類（地下鉄マップ、標識、時刻表）
- 現在の場所や方向を説明する
- 最もシンプルな行動のアドバイスを提供する
 
## 観光地類
- それがどこかを識別する
- 歴史的背景を簡単に説明する（2〜3文）
- 観光のヒントを提供する
 
## 買い物類（値札、成分表）
- 価格を日本円に換算する
- 成分の中に一般的なアレルゲンが含まれているか確認する
- 購入する価値があるか（国内での同類商品との価格比較）
 
全文日本語、簡潔で実用的に。

仕組み

OpenClawがTelegramの画像メッセージを受信すると：

画像がbase64形式に変換される
あなたのテキストの質問と一緒にMiniMax VL-01に送信される
VL-01が画像とテキストを同時に理解する
Telegram経由で返信が送られる

このプロセス全体は通常 3〜8秒 で完了します。

小技

複数の画像を一度に送信：Telegramは画像グループの送信をサポートし、AIはすべての画像を同時に分析します

追加質問：AIにはコンテキスト記憶があるため、画像を送った後に続けて質問できます：

[メニューの画像を送信]
この料理はどうやって作りますか？
→ 2番目の料理にピーナッツは含まれていますか？アレルギーがあります
→ では何を代わりに注文すればいいですか？

言語の指定：英語で出力したい場合は、一言伝えるだけです：

[画像を送信] answer in English

よくある質問

どの画像形式をサポートしていますか？

JPEG、PNG、WebP、GIF（最初のフレーム）などの主要な形式をサポートしています。Telegramで送信された写真は自動的にJPEGに圧縮され、スクリーンショットは通常PNGです。どちらの形式も完全にサポートされています。

画像認識の精度はどのくらいですか？

MiniMax VL-01はテキスト認識（OCR）、シーン理解、コード認識において良好なパフォーマンスを発揮し、鮮明な写真に対する認識精度が高いです。ぼやけた写真、低照度、非常に小さな文字は精度を下げる可能性があります。撮影時は安定を保ち、十分な照明で撮影すると最良の結果が得られます。

スクリーンショット内のコードエラーを認識できますか？

はい、これが最も実用的なシナリオの一つです。ターミナルのスクリーンショットを送ると、AIはエラーメッセージを識別し、問題のあるコードを特定し、修正案を提示します。ほとんどの主要プログラミング言語のエラー形式を認識することができます。

画像サイズに制限はありますか？

Telegramの写真モードで最大約10MBです。OpenClawは受信後に自動的にサイズを処理するため、通常は手動で圧縮する必要はありません。超高解像度の画像（4000pxを超える）はtoken節約のため、事前に適切に圧縮することを推奨します。

画像認識Skillを設定せずに画像を送るとどうなりますか？

画像認識は可能です。専用Skillが有効になっていない場合、AIは汎用能力で画像を分析しますが、専用Skillほど構造化された出力にはなりません。本チュートリアルに従って /画像認識 Skillを作成することで、より一貫した返信形式が得られます。

なぜこれが面白いのか

これはOpenClawがメッセージチャンネル（Telegram）、ビジョンAI（MiniMax VL-01）、Skillシステム（SKILL.md）の三つを連携させた典型的なユースケースです。

以前は画像認識のためにChatGPTのWebページを開き→画像をアップロード→待機する必要がありました。今はTelegramで写真を送るだけで、AIが自動処理します。まるで本物の人間アシスタントにメッセージを送るように自然です。

「AIを日常使用しているツールに組み込む」これがOpenClawの最も核心的な設計理念です。