أداة ترجمة الفيديو والتعليق الصوتي بالذكاء الاصطناعي البسيطة

English｜简体中文｜日本語｜한국어｜Tiếng Việt｜Français｜Deutsch｜Español｜Português｜Русский｜اللغة العربية

مقدمة المشروع (جرب النسخة عبر الإنترنت الآن!)

KrillinAI هو حل متعدد الاستخدامات لتوطين الصوت والفيديو وتعزيزه تم تطويره بواسطة Krillin AI. هذه الأداة البسيطة ولكن القوية تدمج ترجمة الفيديو، والتعليق الصوتي، واستنساخ الصوت، وتدعم كل من التنسيقات الأفقية والرأسية لضمان عرض مثالي على جميع المنصات الرئيسية (Bilibili، Xiaohongshu، Douyin، WeChat Video، Kuaishou، YouTube، TikTok، إلخ). مع سير عمل شامل، يمكنك تحويل المواد الخام إلى محتوى جاهز للاستخدام عبر المنصات ببضع نقرات فقط.

الميزات والوظائف الرئيسية:

🎯 بدء بنقرة واحدة: لا حاجة لتكوين بيئة معقدة، تثبيت تلقائي للاعتماديات، جاهز للاستخدام على الفور، مع إصدار جديد لسطح المكتب لتسهيل الوصول!

📥 الحصول على الفيديو: يدعم تنزيلات yt-dlp أو تحميل الملفات المحلية

📜 التعرف الدقيق: التعرف على الكلام بدقة عالية يعتمد على Whisper

🧠 التقسيم الذكي: تقسيم وتنسيق الترجمة باستخدام LLM

🔄 استبدال المصطلحات: استبدال المصطلحات المهنية بنقرة واحدة

🌍 ترجمة احترافية: ترجمة LLM مع سياق للحفاظ على المعاني الطبيعية

🎙️ استنساخ الصوت: يقدم نغمات صوتية مختارة من CosyVoice أو استنساخ صوت مخصص

🎬 تركيب الفيديو: يعالج تلقائيًا مقاطع الفيديو الأفقية والرأسية وتنسيق الترجمة

💻 عبر المنصات: يدعم Windows وLinux وmacOS، ويوفر إصدارات لكل من سطح المكتب والخادم

عرض التأثير

تظهر الصورة أدناه تأثير ملف الترجمة الذي تم إنشاؤه بعد استيراد فيديو محلي مدته 46 دقيقة وتنفيذه بنقرة واحدة، دون أي تعديلات يدوية. لا توجد أي فوات أو تداخلات، والتقسيم طبيعي، وجودة الترجمة عالية جدًا.

ترجمة الترجمة

subtitle_translation.mp4

التعليق الصوتي

tts.mp4

وضع الرأس

agi.mp4

🔍 خدمات التعرف على الكلام المدعومة

جميع النماذج المحلية في الجدول أدناه تدعم التثبيت التلقائي للملفات التنفيذية + ملفات النموذج؛ كل ما عليك هو الاختيار، وKlic سيتولى كل شيء من أجلك.

مصدر الخدمة	المنصات المدعومة	خيارات النموذج	محلي/سحابي	ملاحظات
OpenAI Whisper	جميع المنصات	-	سحابي	سرعة عالية وتأثير جيد
FasterWhisper	Windows/Linux	`tiny`/`medium`/`large-v2` (الموصى به medium+)	محلي	سرعة أعلى، بدون تكلفة خدمة سحابية
WhisperKit	macOS (M-series فقط)	`large-v2`	محلي	تحسين محلي لشرائح Apple
WhisperCpp	جميع المنصات	`large-v2`	محلي	يدعم جميع المنصات
Alibaba Cloud ASR	جميع المنصات	-	سحابي	يتجنب مشاكل الشبكة في الصين

🚀 دعم نموذج اللغة الكبير

✅ متوافق مع جميع خدمات نموذج اللغة الكبير السحابية/المحلية التي تتوافق مع مواصفات واجهة برمجة تطبيقات OpenAI، بما في ذلك على سبيل المثال لا الحصر:

OpenAI
Gemini
DeepSeek
Tongyi Qianwen
نماذج مفتوحة المصدر تم نشرها محليًا
خدمات واجهة برمجة التطبيقات الأخرى المتوافقة مع تنسيق OpenAI

🎤 دعم تحويل النص إلى كلام (TTS)

خدمة صوت Alibaba Cloud
OpenAI TTS

دعم اللغات

اللغات المدخلة المدعومة: الصينية، الإنجليزية، اليابانية، الألمانية، التركية، الكورية، الروسية، الماليزية (تزداد باستمرار)

اللغات المدعومة للترجمة: الإنجليزية، الصينية، الروسية، الإسبانية، الفرنسية، و101 لغة أخرى

معاينة الواجهة

🚀 البدء السريع

يمكنك طرح الأسئلة على Deepwiki of KrillinAI. يقوم بفهرسة الملفات في المستودع، لذا يمكنك العثور على الإجابات بسرعة.

الخطوات الأساسية

أولاً، قم بتنزيل الملف التنفيذي الذي يتناسب مع نظام جهازك من الإصدار، ثم اتبع الدليل أدناه للاختيار بين إصدار سطح المكتب أو الإصدار غير المكتبي. ضع تحميل البرنامج في مجلد فارغ، حيث أن تشغيله سيولد بعض الدلائل، والحفاظ عليه في مجلد فارغ سيسهل الإدارة.

【إذا كان إصدار سطح المكتب، أي ملف الإصدار الذي يحتوي على "desktop"، انظر هنا】 تم إصدار إصدار سطح المكتب حديثًا لمعالجة مشكلات المستخدمين الجدد الذين يواجهون صعوبة في تحرير ملفات التكوين بشكل صحيح، وهناك بعض الأخطاء التي يتم تحديثها باستمرار.

انقر نقرًا مزدوجًا على الملف لبدء استخدامه (يتطلب إصدار سطح المكتب أيضًا تكوينًا داخل البرنامج)

【إذا كان الإصدار غير المكتبي، أي ملف الإصدار بدون "desktop"، انظر هنا】 الإصدار غير المكتبي هو الإصدار الأولي، والذي يحتوي على تكوين أكثر تعقيدًا ولكنه مستقر في الوظائف ومناسب للنشر على الخادم، حيث يوفر واجهة مستخدم بتنسيق ويب.

أنشئ مجلد config داخل المجلد، ثم أنشئ ملف config.toml في مجلد config. انسخ محتويات ملف config-example.toml من دليل config في الشيفرة المصدرية إلى config.toml، واملأ معلومات التكوين الخاصة بك وفقًا للتعليقات.
انقر نقرًا مزدوجًا أو نفذ الملف التنفيذي في الطرفية لبدء الخدمة
افتح متصفحك وأدخل http://127.0.0.1:8888 لبدء استخدامه (استبدل 8888 بالمنفذ الذي حددته في ملف التكوين)

إلى: مستخدمي macOS

【إذا كان إصدار سطح المكتب، أي ملف الإصدار الذي يحتوي على "desktop"، انظر هنا】 بسبب مشكلات التوقيع، لا يمكن حاليًا تشغيل إصدار سطح المكتب بنقرة مزدوجة أو تثبيته عبر dmg؛ تحتاج إلى الوثوق بالبرنامج يدويًا. الطريقة هي كما يلي:

افتح الطرفية في الدليل حيث يوجد الملف التنفيذي (افترض أن اسم الملف هو KrillinAI_1.0.0_desktop_macOS_arm64)
نفذ الأوامر التالية بالترتيب:

sudo xattr -cr ./KrillinAI_1.0.0_desktop_macOS_arm64
sudo chmod +x ./KrillinAI_1.0.0_desktop_macOS_arm64 
./KrillinAI_1.0.0_desktop_macOS_arm64

【إذا كان الإصدار غير المكتبي، أي ملف الإصدار بدون "desktop"، انظر هنا】 هذا البرنامج غير موقع، لذا عند التشغيل على macOS، بعد إكمال تكوين الملف في "الخطوات الأساسية"، تحتاج أيضًا إلى الوثوق بالبرنامج يدويًا. الطريقة هي كما يلي:

افتح الطرفية في الدليل حيث يوجد الملف التنفيذي (افترض أن اسم الملف هو KrillinAI_1.0.0_macOS_arm64)

نفذ الأوامر التالية بالترتيب:

sudo xattr -rd com.apple.quarantine ./KrillinAI_1.0.0_macOS_arm64
sudo chmod +x ./KrillinAI_1.0.0_macOS_arm64
./KrillinAI_1.0.0_macOS_arm64

سيبدأ هذا الخدمة

نشر Docker

يدعم هذا المشروع نشر Docker؛ يرجى الرجوع إلى تعليمات نشر Docker

استنادًا إلى ملف التكوين المقدم، إليك قسم "مساعدة التكوين (يجب قراءته)" المحدث لملف README الخاص بك:

مساعدة التكوين (يجب قراءته)

ملف التكوين مقسم إلى عدة أقسام: [app]، [server]، [llm]، [transcribe]، و[tts]. تتكون المهمة من التعرف على الكلام (transcribe) + ترجمة النموذج الكبير (llm) + خدمات الصوت الاختيارية (tts). سيساعدك فهم ذلك على فهم ملف التكوين بشكل أفضل.

أسهل وأسرع تكوين:

لترجمة الترجمة فقط:

في قسم [transcribe]، قم بتعيين provider.name إلى openai.
بعد ذلك، ستحتاج فقط إلى ملء مفتاح واجهة برمجة تطبيقات OpenAI الخاص بك في كتلة [llm] لبدء إجراء ترجمات الترجمة. يمكن ملء app.proxy وmodel وopenai.base_url حسب الحاجة.

تكلفة متوازنة، سرعة، وجودة (باستخدام التعرف على الكلام المحلي):

في قسم [transcribe]، قم بتعيين provider.name إلى fasterwhisper.
قم بتعيين transcribe.fasterwhisper.model إلى large-v2.
املأ تكوين نموذج اللغة الكبير الخاص بك في كتلة [llm].
سيتم تنزيل النموذج المحلي المطلوب وتثبيته تلقائيًا.

تكوين تحويل النص إلى كلام (TTS) (اختياري):

تكوين TTS اختياري.
أولاً، قم بتعيين provider.name تحت قسم [tts] (مثل aliyun أو openai).
ثم، املأ كتلة التكوين المقابلة لمزود الخدمة المحدد. على سبيل المثال، إذا اخترت aliyun، يجب عليك ملء قسم [tts.aliyun].
يجب اختيار رموز الصوت في واجهة المستخدم بناءً على وثائق المزود المحدد.
ملاحظة: إذا كنت تخطط لاستخدام ميزة استنساخ الصوت، يجب عليك اختيار aliyun كمزود TTS.

تكوين Alibaba Cloud:

للحصول على تفاصيل حول الحصول على AccessKey وBucket وAppKey اللازمة لخدمات Alibaba Cloud، يرجى الرجوع إلى تعليمات تكوين Alibaba Cloud. تم تصميم الحقول المتكررة لـ AccessKey، إلخ، للحفاظ على هيكل تكوين واضح.

الأسئلة المتكررة

يرجى زيارة الأسئلة المتكررة

إرشادات المساهمة

لا تقدم ملفات غير مفيدة، مثل .vscode، .idea، إلخ؛ يرجى استخدام .gitignore لتصفية هذه الملفات.
لا تقدم config.toml؛ بدلاً من ذلك، قدم config-example.toml.

اتصل بنا

انضم إلى مجموعة QQ الخاصة بنا لطرح الأسئلة: 754069680
تابع حساباتنا على وسائل التواصل الاجتماعي، Bilibili، حيث نشارك محتوى عالي الجودة في مجال تكنولوجيا الذكاء الاصطناعي كل يوم.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

أداة ترجمة الفيديو والتعليق الصوتي بالذكاء الاصطناعي البسيطة

مقدمة المشروع (جرب النسخة عبر الإنترنت الآن!)

الميزات والوظائف الرئيسية: