الدرس 07 — مساعد التعرف على الصور بالكاميرا

التقط صورة بهاتفك، أرسلها لـ Telegram Bot، ويفهمها لك الذكاء الاصطناعي. قوائم الطعام بلغات أجنبية، معادلات رياضية، لقطات شاشة للأكواد، لافتات الطريق — فقط التقط صورة.

ما يمكن تحقيقه

تلتقط صورة بهاتفك
   ↓
ترسلها لـ Telegram Bot
   ↓
يستلم OpenClaw الصورة
يحللها نموذج MiniMax VL-01 (نموذج رؤية)
   ↓
يخبرك بما في الصورة

لا حاجة لفتح المتصفح، ولا رفع يدوي، فقط أرسل الصورة.

سيناريوهات عملية

السيناريو	ما ترسله	ما يردّ به الذكاء الاصطناعي
سفر خارجي	صورة قائمة طعام يابانية	أسماء الأطباق وتقريب الأسعار
قراءة ورقة بحثية	لقطة شاشة لمعادلة رياضية	شرح المعادلة واشتقاقها
البرمجة	لقطة شاشة لرسالة خطأ	سبب الخطأ واقتراحات الإصلاح
التسوق	جدول مكونات منتج	تحليل المكونات الرئيسية ووجود ما يسبب حساسيتك
الوثائق القانونية	صفحة من عقد	شرح بسيط للبند
التعرف على النباتات	صورة زهرة من الطريق	اسم النبات وخصائصه وهل هو سام

المتطلبات الأساسية

إكمال الدرس 01 (البوابة تعمل)
إكمال الدرس 02 (Telegram مُعدّ)
إعداد MiniMax في openclaw.json (VL-01 يدعم إدخال الصور)

الخطوة الأولى: التأكد من إعداد نموذج الرؤية

أضف VL-01 في minimax.models داخل ~/.openclaw/openclaw.json:

{
  "id": "MiniMax-VL-01",
  "name": "MiniMax VL-01",
  "reasoning": false,
  "input": ["text", "image"],
  "cost": { "input": 15, "output": 60, "cacheRead": 2, "cacheWrite": 10 },
  "contextWindow": 200000,
  "maxTokens": 8192
}

التحقق:

pnpm openclaw models list --all | grep VL
# يجب أن ترى: minimax/MiniMax-VL-01  text+image  yes

الخطوة الثانية: إنشاء مهارة التعرف على الصور

أنشئ ~/.openclaw/workspace/skills/تعرف_الصور/SKILL.md:

mkdir -p ~/.openclaw/workspace/skills/تعرف_الصور

# مساعد التعرف على الصور
 
أرسل المستخدم صورة. عليك:
 
1. **ملاحظة** جميع تفاصيل الصورة بعناية
2. **تحديد السياق**: هل هذا نص / معادلة / كود / شيء حقيقي / لقطة شاشة / غير ذلك؟
3. تقديم الرد الأكثر فائدة بحسب السياق:
 
### إذا كان نصاً / قائمة / لافتة / وثيقة
- نسخ جميع النصوص بالكامل
- إذا كانت بلغة أجنبية، ترجمها إلى العربية
- شرح المحتوى بلغة طبيعية
 
### إذا كان كوداً / لقطة شاشة / رسالة خطأ
- تحديد لغة البرمجة والإطار المستخدم
- شرح ما يفعله الكود / ما هو الخطأ
- تقديم اقتراحات للتحسين أو الإصلاح
 
### إذا كانت معادلة / مخططاً
- شرح معنى المعادلة بالنص
- توضيح ما تمثله المتغيرات
- إذا كان مخططاً، تحليل اتجاهات البيانات
 
### إذا كان شيئاً حقيقياً / نباتاً / طعاماً
- التعرف على الشيء
- تقديم معلومات خلفية ذات صلة (المنشأ، الاستخدام، التحذيرات)
 
## الأسلوب
مباشر وموجز، ابدأ بالنتيجة الأهم ثم التفاصيل.
استخدم العربية طوال الوقت.

الخطوة الثالثة: جاهز، استخدمه مباشرةً

افتح Telegram وأرسل صورة لبوتك، مع إضافة وصف لما تريد معرفته أو بعده:

مثال 1: قائمة طعام يابانية

[صورة قائمة طعام يابانية]
ما هذه الأطباق؟ هل يوجد ما يناسب الشخص الذي لا يأكل حاراً؟

مثال 2: رسالة خطأ في الكود

[لقطة شاشة لخطأ في الطرفية]
ما معنى هذا الخطأ وكيف أصلحه؟

مثال 3: إرسال الصورة بدون نص

أرسل الصورة بدون أي نص، وسيحدد الذكاء الاصطناعي تلقائياً ما قد تريد معرفته.

متقدم: حزمة التعرف على الصور للسفر

أنشئ مهارة مخصصة للسفر ~/.openclaw/workspace/skills/مساعد_السفر/SKILL.md:

# مساعد التعرف على الصور أثناء السفر
 
أنت مساعد سفر ذو خبرة واسعة، سيرسل إليك المستخدم صوراً متنوعة أثناء السفر.
 
## قوائم الطعام
- تحديد كل طبق وشرح مكوناته وطعمه بالعربية
- الإشارة إلى السعر التقريبي
- اقتراح 2-3 أطباق مناسبة للزوار العرب
 
## المواصلات (خرائط مترو، لافتات، جداول زمنية)
- توضيح الموقع الحالي أو الاتجاه
- تقديم أبسط نصيحة للتحرك
 
## المعالم السياحية
- التعرف على المكان
- مقدمة تاريخية موجزة (2-3 جمل)
- نصائح للزيارة
 
## التسوق (بطاقات الأسعار، جداول المكونات)
- تحويل السعر إلى العملة المحلية
- التحقق من الحساسيات الشائعة في المكونات
- هل يستحق الشراء (مقارنة السعر)
 
كل شيء بالعربية، موجز وعملي.

كيف يعمل

عند استلام OpenClaw صورة من Telegram:

تُحوَّل الصورة إلى تنسيق base64
تُرسَل مع سؤالك النصي إلى MiniMax VL-01
يفهم VL-01 الصورة والنص معاً
يُرسَل الرد إليك عبر Telegram

تستغرق العملية عادةً 3-8 ثوانٍ.

نصائح

إرسال عدة صور: يدعم Telegram إرسال ألبومات صور، وسيحلل الذكاء الاصطناعي جميع الصور معاً

متابعة الأسئلة: للذكاء الاصطناعي ذاكرة للسياق، يمكنك الاستمرار في السؤال:

[صورة قائمة]
كيف يُطبخ هذا الطبق؟
→ هل الطبق الثاني يحتوي على مكسرات؟ أنا حساس منها
→ ما الذي تقترح بديلاً؟

تحديد اللغة: إذا أردت إجابة بالإنجليزية:

[صورة] answer in English

الأسئلة الشائعة

ما صيغ الصور المدعومة؟

يدعم JPEG وPNG وWebP وGIF (الإطار الأول) والصيغ الرئيسية الأخرى. الصور المرسلة عبر Telegram تُضغط تلقائياً إلى JPEG، ولقطات الشاشة عادةً PNG — كلتا الصيغتين مدعومتان تماماً.

ما دقة التعرف على الصور؟

يتمتع MiniMax VL-01 بأداء جيد في التعرف على النصوص (OCR) وفهم المشاهد وتحديد الأكواد. معدل دقة التعرف على الصور الواضحة مرتفع. الصور الضبابية وقليلة الإضاءة والخطوط الصغيرة جداً تقلل الدقة. التقاط الصور بثبات وإضاءة جيدة يعطي أفضل النتائج.

هل يمكن التعرف على رسائل الخطأ في لقطات شاشة الأكواد؟

نعم، وهذا أحد أكثر الاستخدامات العملية. أرسل لقطة شاشة للطرفية وسيتعرف الذكاء الاصطناعي على رسالة الخطأ ويحدد المشكلة ويقترح حلولاً. يدعم التعرف على صيغ الأخطاء لمعظم لغات البرمجة الرئيسية.

هل يوجد حد لحجم الصورة؟

حجم الصورة في وضع التصوير بـ Telegram يصل إلى 10 ميغابايت تقريباً. يعالج OpenClaw الأحجام تلقائياً بعد الاستلام، ولا تحتاج عادةً للضغط اليدوي. الصور عالية الدقة جداً (أكثر من 4000 بكسل) يُنصح بضغطها قليلاً لتوفير tokens.

ماذا يحدث إذا أرسلت صورة بدون تفعيل مهارة التعرف على الصور؟

يمكن التعرف عليها أيضاً. بدون تفعيل مهارة مخصصة، سيحلل الذكاء الاصطناعي الصورة بقدراته العامة، لكن المخرجات لن تكون بنفس درجة التنظيم. يُنصح بإنشاء مهارة /تعرف_الصور كما في هذا الدرس للحصول على تنسيق موحد للردود.

لماذا هذا ممتع

هذا مثال نموذجي على ربط OpenClaw لـ قنوات الرسائل (Telegram) والذكاء الاصطناعي البصري (MiniMax VL-01) ونظام المهارات (SKILL.md) معاً.

في السابق كنت تحتاج لفتح موقع الذكاء الاصطناعي ورفع الصورة والانتظار. الآن فقط أرسل صورة في Telegram والذكاء الاصطناعي يتولى الأمر، تماماً كمساعد حقيقي تراسله عبر الواتساب.

هذا هو "تضمين الذكاء الاصطناعي في أدواتك اليومية" — وهو جوهر تصميم OpenClaw.