الدروس 23

الدرس 23 — دليل OpenClaw مهارة Whisper: تحويل الصوت إلى نص محلياً بدون اتصال بالإنترنت، بدون رسوم API (2026)

الهدف: تثبيت مهارة Whisper لجعل OpenClaw يُحوّل الملفات الصوتية إلى نص محلياً بدون اتصال، يدعم العربية والإنجليزية، دون الاعتماد على أي API سحابي.


مقارنة Whisper المحلي مقابل API السحابي

قبل استخدام Whisper المحلي، اطّلع على الفرق بين الخيارين:

المحور Whisper المحلي (هذا الدرس) API السحابي (مثل OpenAI Whisper API)
التكلفة مجاني، بلا حد للاستدعاءات $0.006/دقيقة، ساعة تقريباً $0.36
الخصوصية الصوت لا يغادر جهازك، خصوصية تامة الصوت يُرفع لخوادم سحابية
الشبكة لا يحتاج إنترنت، يعمل دون اتصال يستلزم اتصالاً، لا يعمل بدونه
السرعة تعتمد على الأجهزة المحلية عادةً 10-30 ثانية/ساعة تسجيل
التعرف على العربية نماذج medium/large دقة >90% مماثل للنموذج المحلي large

للتسجيلات الصوتية التي تحتوي أسراراً تجارية أو خصوصية شخصية، الحل المحلي هو الخيار الآمن الوحيد.


الخطوة الأولى: تثبيت Whisper CLI

تعتمد مهارة Whisper على أداة Python من سطر الأوامر openai-whisper. ثبّتها أولاً:

pip install openai-whisper

للتحقق من التثبيت:

whisper --help
# إخراج معلومات الاستخدام يُشير إلى نجاح التثبيت

اختر حجم النموذج (يُنزَّل تلقائياً عند أول تشغيل):

النموذج الحجم مناسب لـ
tiny 75 ميغابايت اختبار سريع، دقة محدودة
base 145 ميغابايت الاستخدام اليومي بالإنجليزية
small 483 ميغابايت يدعم العربية والإنجليزية، موصى به للمبتدئين
medium 1.5 غيغابايت تسجيلات الاجتماعات بالعربية، موصى به
large 3 غيغابايت أعلى دقة، الخيار الأول للتعرف على العربية

إذا كنت تتطلب دقة عالية في التعرف على العربية، استخدم نموذج large مباشرةً، بعد التنزيل الأول يعمل كلياً بدون اتصال.


الخطوة الثانية: تثبيت المهارة

في WebChat أو Telegram أرسل:

/install @steipete/openai-whisper

للتحقق من التثبيت:

pnpm openclaw skills list
# يجب أن يظهر openai-whisper في القائمة

الخطوة الثالثة: التحويل الأساسي

بعد التثبيت، أرسل مسار الملف الصوتي للذكاء الاصطناعي:

حوّل هذا التسجيل الصوتي إلى نص: ~/Downloads/اجتماع.mp3

أو استخدم الأمر بشرطة مائلة:

/whisper ~/Downloads/اجتماع.mp3

ستستدعي المهارة Whisper CLI المحلي وتُخرج النص. صيغ الصوت المدعومة: mp3، wav، m4a، flac، ogg، webm.


الخطوة الرابعة: تحديد اللغة (تحسين التعرف على العربية)

بدون تحديد اللغة يكتشفها Whisper تلقائياً، لكن الأداء يكون غير مستقر مع التسجيلات المختلطة. يُنصح بالتحديد الصريح:

حوّل تسجيل هذا الاجتماع إلى نص بالعربية: ~/Recordings/اجتماع_Q1.m4a
اللغة: عربية

الأمر المقابل في الخلفية:

whisper ~/Recordings/اجتماع_Q1.m4a --language ar --model medium

للتسجيلات المختلطة عربياً وإنجليزياً (مثل الاجتماعات التقنية)، حدّد --language ar وسيُعطي Whisper أولوية للعربية مع الإبقاء على المصطلحات الإنجليزية.


الخطوة الخامسة: التحكم في صيغة المخرجات

تدعم مهارة Whisper ثلاث صيغ مخرجات:

نص عادي (الافتراضي):

/whisper ~/تسجيل.mp3 --format txt

ملف SRT بترجمة مع طوابع زمنية:

/whisper ~/تسجيل.mp3 --format srt

مثال على المخرجات:

1
00:00:01,200 --> 00:00:04,800
أهلاً بالجميع، سنناقش اليوم بيانات المبيعات للربع الأول.
 
2
00:00:05,100 --> 00:00:09,300
وفقاً للتقرير الأخير، حقق النمو الإجمالي 23%.

صيغة JSON (تتضمن طوابع زمنية على مستوى الكلمة، مناسبة للمعالجة اللاحقة):

/whisper ~/تسجيل.mp3 --format json

الخطوة السادسة: التلخيص التلقائي بعد التحويل

سير العمل الكامل لتحويل تسجيل الاجتماع إلى محضر مُنظَّم بأمر واحد:

حوّل تسجيل الاجتماع هذا إلى نص ثم أنشئ محضر الاجتماع (يشمل القرارات وقائمة المهام والمسؤولين):
~/Recordings/weekly-sync.mp3

سيستدعي OpenClaw مهارة Whisper أولاً للتحويل، ثم مهارة Summarize (الدرس 10) لإنشاء المحضر المُنظَّم.


الخطوة السابعة: سير عمل فعلي لتسجيلات الاجتماعات

السير الكامل: تسجيل → تحويل → محضر → حفظ

1. بعد انتهاء الاجتماع، أرسل مسار الملف إلى OpenClaw
2. الأمر: حوّل هذا التسجيل إلى محضر اجتماع واحفظه في Obsidian في مجلد /محاضر_الاجتماعات/:
   ~/Recordings/2026-03-30-اجتماع_المنتج.mp3

خطوات تنفيذ OpenClaw:

  1. مهارة Whisper تُحوّل المحلياً وتُنشئ النص
  2. مهارة Summarize تستخلص محضر الاجتماع
  3. عبر Obsidian MCP يُحفظ في المجلد المحدد

إذا أردت الأرشفة في Notion، استبدل الخطوة الأخيرة بـ Notion MCP أو مهارة API Gateway (الدرس 25).


الأسئلة الشائعة

هل يستطيع OpenClaw Whisper التعرف على العربية؟

نعم. دقة التعرف على العربية الفصحى بنماذج Whisper medium وlarge تتجاوز 90%، وهي من أفضل نماذج التعرف على الكلام مفتوحة المصدر للعربية. يُنصح باستخدام --model medium أو --model large، مع تحديد --language ar صراحةً لتجنب سوء تعرف التسجيلات المختلطة. دعم اللهجات (كالخليجية والمصرية) محدود حالياً.

هل يحتاج Whisper المحلي GPU لتحويل الصوت إلى نص؟

لا، يعمل على CPU أيضاً لكن بسرعة أبطأ. على Apple Silicon (M1/M2/M3/M4) يستخدم Whisper تلقائياً تسريع GPU عبر Metal، أداؤه يقارب بطاقة رسومات مستقلة. عند استخدام Intel CPU يُنصح باختيار نموذج small أو medium؛ معالجة ساعة تسجيل بنموذج large على CPU قد تستغرق 15-30 دقيقة. يمكن تثبيت pip install openai-whisper torch لتفعيل تسريع PyTorch.

ما سرعة التحويل؟ كم تستغرق ساعة تسجيل؟

تتفاوت السرعة حسب الأجهزة والنموذج: Apple M2 Pro بنموذج medium: ساعة تسجيل في 3-5 دقائق؛ Apple M2 Pro بنموذج large: 8-12 دقيقة؛ Intel i7 عادي بنموذج medium: 20-40 دقيقة. مع GPU من NVIDIA، يُكمل نموذج large ساعة تسجيل في 2-3 دقائق.

أين يُحفظ ملف الترجمة (SRT)؟

عند استخدام معامل --format srt، يحفظ Whisper ملف SRT افتراضياً في نفس مجلد الملف الصوتي باسم مطابق (امتداد .srt). مثلاً: ~/Downloads/اجتماع.mp3 يُنتج ~/Downloads/اجتماع.srt. يمكنك أيضاً طلب من الذكاء الاصطناعي نسخ ملف SRT إلى موقع محدد.


الخطوات التالية

  • الدرس 24 — تعلّم كتابة مهارتك الخاصة ونشرها على ClawHub
  • الدرس 10 — الدمج مع مهارة Summarize لإنشاء ملخصات تلقائية من نتائج التحويل

关注我们,获取最新 AI 动态

在 X 上关注 @lanmiaoai,第一时间获取教程更新、AI 工具推荐。

立即关注