ثلاثة نماذج، رسالة استراتيجية واحدة
بعد استثمار 13 مليار دولار في OpenAI، أصدرت Microsoft ثلاثة نماذج أساسية مطورة بالكامل داخلياً — وهي تتفوق على عروض OpenAI الخاصة في معايير رئيسية. الرسالة لا لبس فيها: عصر الاعتماد على مزود واحد للذكاء الاصطناعي قد انتهى.
في 2 أبريل 2026، أطلقت Microsoft AI (MAI) نموذج MAI-Transcribe-1 للتعرف على الكلام، وMAI-Voice-1 لتوليد الكلام، وMAI-Image-2 لتوليد الصور من النص. الثلاثة يُوزَّعون حصرياً عبر Microsoft Foundry، منصة الذكاء الاصطناعي الموحدة للشركة. هذه ليست أغلفة معدّلة حول تقنية OpenAI — إنها نماذج مملوكة طورها فريق AI Superintelligence في Microsoft بقيادة Mustafa Suleyman، وتصل بنتائج معيارية في قمة أو بالقرب من قمة فئاتها المعنية.
ما الذي أطلقته Microsoft فعلاً
MAI-Transcribe-1 هو نموذج التعرف التلقائي على الكلام من الجيل الأول لدى Microsoft. يحقق معدل خطأ في الكلمات 3.8% على معيار FLEURS — الأدنى بين جميع النماذج المختبرة — متفوقاً على Whisper من OpenAI وقدرات Gemini الصوتية من Google عبر 25 لغة. يعمل النموذج بسرعة 2.5 ضعف خدمة النسخ السريع السابقة من Azure وبتكلفة GPU أقل بنحو 50% من البدائل الرائدة. يبدأ تسعير المؤسسات من 0.36 دولار للساعة.
MAI-Voice-1 ينتج 60 ثانية من الصوت التعبيري في أقل من ثانية على وحدة GPU واحدة — عامل وقت حقيقي 60 ضعفاً يجعله أحد أسرع أنظمة تحويل النص إلى كلام التجارية المتاحة. يدعم النموذج إنشاء أصوات مخصصة للعلامات التجارية في خدمة العملاء وإمكانية الوصول وإنتاج المحتوى. يبدأ التسعير من 22 دولاراً لكل مليون حرف.
MAI-Image-2 ظهر في المرتبة الثالثة على لائحة Arena.ai لتوليد الصور من النص، مما يضع Microsoft مباشرة خلف Gemini 3.1 Flash من Google وGPT Image 1.5 من OpenAI. يقدم النموذج عرضاً أقوى للنص داخل الصور — أمر بالغ الأهمية للرسوم البيانية والمخططات — وأوقات توليد أسرع بمرتين على الأقل مقارنة بسابقه. طوّره فريق AI Superintelligence الذي شكّله Suleyman في نوفمبر 2025، وهو يشغّل بالفعل توليد الصور في Copilot وBing.
إعلان
فك الارتباط مع OpenAI يتسارع
يأتي هذا الإطلاق بعد إعادة هيكلة أكتوبر 2025 لشراكة Microsoft-OpenAI، التي حوّلت OpenAI إلى شركة منفعة عامة، ومنحت Microsoft حصة 26.79%، والأهم — حررت Microsoft لمتابعة تطوير الذكاء الاصطناعي المتقدم بشكل مستقل، بما في ذلك الذكاء الاصطناعي العام، بمفردها أو مع أطراف ثالثة.
هذه الحرية التعاقدية يُمارَس عليها الآن فعلياً. تبني Microsoft مكدس نماذجها الخاص عبر الأنماط (نص، كلام، رؤية) مع استضافة OpenAI وAnthropic وMeta وMistral وDeepSeek وغيرها على كتالوج Foundry الذي يضم أكثر من 11,000 نموذج. الاستراتيجية: امتلاك المنصة، تقديم كل نموذج، مع التأكد من أن عروض Microsoft الداخلية تنافسية بما يكفي لتكون الخيار الافتراضي.
تبقى OpenAI شريكاً استراتيجياً — لا تزال نماذجها تشغّل جزءاً كبيراً من Copilot، وقد التزمت بـ250 مليار دولار في مشتريات حوسبة Azure. لكن العلاقة تشبه بشكل متزايد شركتين بمنتجات متداخلة بدلاً من شراكة بتقسيم واضح للعمل.
استراتيجية المنصة متعددة المزودين
Microsoft Foundry، الذي أُعيدت تسميته من Azure AI Foundry في يناير 2026، يعمل كواجهة موحدة للوصول إلى النماذج والضبط الدقيق والنشر وتنسيق الوكلاء المتعددين. يستضيف نماذج من Microsoft وOpenAI وAnthropic وCohere وMeta وMistral وxAI وNVIDIA وHugging Face — سوق نماذج مصمم لمنع الحبس لدى مزود واحد مع إبقاء المؤسسات ضمن منظومة Microsoft.
بإضافة نماذج MAI جنباً إلى جنب مع العروض الخارجية، تخلق Microsoft ديناميكية حيث يجب أن تكسب نماذجها الخاصة الاعتماد بالجدارة وليس بالحصرية. هذا نهج مختلف جذرياً عن المنظومة المغلقة لـOpenAI أو المكدس المتكامل رأسياً من Google.
الأثر العملي واضح: المعمارية متعددة النماذج هي الآن المعيار الافتراضي. يمكن للمؤسسات الجمع بين OpenAI للاستدلال، وAnthropic للمهام الحرجة من حيث السلامة، وMicrosoft MAI لمعالجة الكلام والصور الحساسة للتكلفة — كل ذلك ضمن منصة واحدة. MAI-Transcribe-1 بسعر 0.36 دولار/ساعة مع تخفيض 50% في تكاليف GPU مقارنة بـWhisper، وMAI-Image-2 بتسعير أقل من DALL-E 3، يمنحان فرق المشتريات أسباباً ملموسة للتنويع.
يعكس هذا نمطاً أوسع في الصناعة: كل مزود سحابي كبير يبني نماذج أساسية مملوكة مع استضافة المنافسين. Google لديها Gemini وVertex AI. Amazon لديها Nova وBedrock. Microsoft لديها الآن MAI وFoundry. الميزة التنافسية تنتقل من حصرية النماذج إلى التصاق المنصة — من يتحكم في طبقة التنسيق والفوترة يحصد القيمة الأكثر استدامة.
الأسئلة الشائعة
هل تحل نماذج MAI من Microsoft محل OpenAI على Azure؟
لا. تواصل Microsoft استضافة نماذج OpenAI على Foundry جنباً إلى جنب مع MAI وعشرات المزودين الآخرين بما في ذلك Anthropic وMeta وMistral. تبقى OpenAI شريكاً استراتيجياً بالتزام 250 مليار دولار في حوسبة Azure. ومع ذلك، لأعباء عمل محددة كالنسخ وتوليد الصور، تقدم نماذج MAI الآن أداءً تنافسياً أو متفوقاً بتكلفة أقل، مما يمنح المؤسسات بديلاً من الطرف الأول ضمن المنصة نفسها.
كيف يقارن MAI-Transcribe-1 بـWhisper من حيث الدقة؟
يحقق MAI-Transcribe-1 معدل خطأ في الكلمات 3.8% على معيار FLEURS، الأدنى بين جميع النماذج المختبرة، متفوقاً على Whisper-large-v3 من OpenAI وGemini 3.1 Flash من Google عبر 25 لغة. الفارق ذو دلالة خاصة في اللغات غير الإنجليزية. بسعر 0.36 دولار لكل ساعة صوتية مع تكاليف GPU أقل بـ50%، هو أيضاً أرخص من Whisper مع كونه أسرع 2.5 مرة من خدمة النسخ السابقة من Azure.
هل يمكن للمؤسسات استخدام نماذج MAI خارج Azure؟
حالياً، جميع نماذج MAI الثلاثة حصرية لـMicrosoft Foundry على بنية Azure التحتية، دون خيار استضافة ذاتية أو محلية مُعلن. المؤسسات غير الموجودة على Azure ستحتاج لاعتماد Foundry للوصول إلى هذه النماذج. ومع ذلك، فإن كتالوج Foundry الذي يضم أكثر من 11,000 نموذج من مزودين متعددين يعني أن الانتقال يوفر الوصول إلى سوق ذكاء اصطناعي واسع بدلاً من عروض مزود واحد.
المصادر والقراءات الإضافية
- Introducing MAI-Transcribe-1, MAI-Voice-1, and MAI-Image-2 in Microsoft Foundry — Microsoft Community Hub
- State of the Art Speech Recognition with MAI-Transcribe-1 — Microsoft AI
- Introducing MAI-Image-2: For Limitless Creativity — Microsoft AI
- Microsoft Takes On AI Rivals with Three New Foundational Models — TechCrunch
- The Next Chapter of the Microsoft-OpenAI Partnership — Microsoft Blog
- OpenAI Completes Restructure, Microsoft Takes 27% Stake — CNBC
- MAI-Image-2 Cracks Arena Leaderboard Top Three — WinBuzzer
- Microsoft’s MAI-Transcribe-1 Runs 2.5x Faster at $0.36/Hour — The Decoder






