لماذا قسّمت Google الجيل الثامن إلى شريحتين
كان TPU Ironwood من الجيل السابع معجّلاً للأغراض العامة مُصمَّماً لمعالجة التدريب والاستدلال على بنية واحدة. في Google Cloud Next 2026 في أبريل، أعلنت Google أن الجيل الثامن يتخلى كلياً عن هذا النهج. TPU 8t مُصمَّم خصيصاً لتدريب النماذج الضخمة. TPU 8i مُصمَّم خصيصاً للاستدلال منخفض الزمن عالي التزامن. تشترك الشريحتان في رؤوس CPU من Arm Axion ومكدّس برمجيات Google Cloud — لكن بنيتيهما الداخليتين مختلفتان جذرياً.
هذا التشعّب يعكس منعطف نضج في سوق الذكاء الاصطناعي المؤسسي. التدريب يتطلب إنتاجية مستدامة قصوى عبر آلاف الشرائح في اتصال متزامن: عنق الزجاجة هو عرض نطاق الاتصال بين الشرائح وعرض نطاق الذاكرة لعمليات بحث التضمين. الاستدلال يتطلب زمن استجابة أدنى للطلبات الفردية عالية التزامن: عنق الزجاجة هو حجم KV Cache وسرعة العمليات الجماعية التي تُوجّه الرموز بين رؤوس الانتباه.
تحليل The Register للإعلان يصف الفصل بأن “Google تُشغّل مسارَين مزدوجَين لـ TPU 8 لإتقان التدريب والاستدلال” — تأطير يلتقط النية التنافسية: Google لا تبني فحسب سيليكون ذكياً أفضل، بل تبني خندقاً أعمق للبنية التحتية الذكائية.
TPU 8t: ما تتيحه 9,600 شريحة في Pod واحد فعلياً
يحتوي superpod الـ TPU 8t على 9,600 شريحة متصلة عبر طوبولوجيا شبكة 3D torus من Google، تُنتج 121 إكساافلوب من الحوسبة وذاكرة HBM مشتركة بحجم 2 بيتابايت. وفقاً للتفصيل التقني لـ Google، تحمل كل شريحة 216 غيغابايت HBM بعرض نطاق 6,528 غيغابايت/ثانية.
ميزتان تحدّدان ما يُتيحه 8t ولم تستطع الأجيال السابقة تقديمه. أولاً، SparseCore: معجّل مخصص لأنماط الوصول الذاكرة غير المنتظمة في عمليات البحث عن التضمين. ثانياً، FP4 الأصلي: الفاصلة العائمة ذات 4 بتات تُضاعف إنتاجية MXU مع الحفاظ على دقة النموذج. هذا الجمع يُنتج تحسين 2,7x في الأداء مقابل الدولار على Ironwood لتدريب النطاق الكبير.
على مستوى الكلستر، تربط شبكة Virgo Fabric من Google 134,000 شريحة TPU 8t في شبكة واحدة غير مانعة داخل مركز بيانات واحد، وتمتد إلى أكثر من مليون وحدة TPU عبر مواقع موزعة. يوفر TPUDirect Storage وصولاً للتخزين أسرع 10 مرات من Ironwood.
إعلان
TPU 8i: بنية الاستدلال المُصمَّمة لأحمال العمل الوكيلية
يُجري TPU 8i مجموعة مختلفة من المقايضات. HBM لكل شريحة بحجم 288 غيغابايت — 33٪ أكثر من 8t — وذاكرة SRAM الداخلية 384 ميغابايت، ثلاثة أضعاف الجيل السابق. توسّع SRAM هذا هو القرار المعماري الجوهري: يُتيح لـ KV Cache للاستدلال ذي السياق الطويل الإقامة كلياً على السيليكون.
طوبولوجيا Boardfly تُقلص قطر الشبكة من 16 قفزة (3D torus) إلى 7 قفزات كحد أقصى — تخفيض 56٪. Collectives Acceleration Engine (CAE) يُقلص زمن الاستجابة على الشريحة للعمليات الجماعية بمعامل 5x. يُنتج TPU 8i مجتمعاً تحسيناً 80٪ في الأداء مقابل الدولار على Ironwood لنماذج MoE الكبيرة.
ما يتعين على المدراء التقنيين فعله بهذه المعلومات
1. مراجعة مزيج أحمال العمل الذكائية الحالية وتقسيمها إلى تدريب مقابل استدلال قبل تجديد عقد السحابة القادم
يُنشئ فصل TPU 8t/8i قراراً تجارياً لم يكن موجوداً مع نشر GPU للأغراض العامة أو Ironwood: فرق المؤسسات تختار الآن سيليكوناً مختلفاً لأنواع مختلفة من أحمال العمل. قبل تجديد عقود Google Cloud AI، راجع محفظة أحمال العمل الذكائية حسب الطابع الحسابي. أحمال العمل التي تنفّذ أقل من 50 جولة تدريب شهرياً مع حركة مرور استدلال إنتاجي ضخم ينبغي نقل طاقة الاستدلال إلى حجوزات TPU 8i.
2. إعادة تصميم نماذج ميزانية الذكاء الاصطناعي الوكيلي لمراعاة ذرى الاستدلال — pods الـ TPU 8i ستشهد ارتفاعات استخدام 4-8x
أحمال العمل الذكائية الوكيلية — التفكير متعدد الخطوات، سلاسل استخدام الأدوات، تحليل المستندات ذات السياق الطويل — تُولّد أنماط حركة مرور استدلال مختلفة جذرياً. وكيل مراجعة قانونية يعالج عقداً من 200 صفحة قد يستدعي النموذج 40 إلى 80 مرة لكل مستند في تسلسل تفكير. على التسعير الفوري التقليدي، يُولّد هذا ذرى تكلفة 4 إلى 8 أضعاف تكلفة الاستعلام المفرد المعادل. توفّر حجوزات TPU 8i مع عقود إنتاجية ملتزمة قدرة التنبؤ بالتكلفة للتدفقات الوكيلية.
3. تقييم مكدّس JAX/Pathways من Google مقابل توافق PyTorch قبل الالتزام بـ TPU 8t للتدريب
يُحقق TPU 8t تحسين 2,7x في الأداء مقابل الدولار ضمن مكدّس JAX وPathways من Google. دعم PyTorch الأصلي في معاينة حالياً — غير متاح بصورة عامة. الفرق التي لديها خطوط أنابيب تدريب PyTorch قائمة وتُقيّم TPU 8t تحتاج لتقييم تكلفة الترحيل: JAX ليس بديلاً مباشراً لـ PyTorch، وإعادة كتابة خطوط أنابيب التدريب بالنطاق الكبير مشروع هندسي من 2 إلى 6 أشهر.
الصورة الأشمل: نهاية السيليكون الذكائي العام
إعلان TPU 8t/8i ذو دلالة معمارية تتجاوز خط منتجات Google. يُشير إلى أن موفري البنية التحتية الذكائية الرائدين استنتجوا أن السيليكون العام — الشرائح المصمّمة لتكون كافية لكل من التدريب والاستدلال — يترك أداءً وكفاءةً كبيرَين على الطاولة في النطاق الذي يُعدّ الحساب الذكائي فيه مهماً اقتصادياً.
تحليل SiliconAngle لـ Cloud Next 2026 يُؤطر الاستراتيجية الأشمل: Google لا تبيع فحسب حوسبة ذكائية — بل تُموضع مكدّسها للبنية التحتية الذكائية كمستوى تحكم لأحمال العمل الذكائية المؤسسية. فصل TPU 8t/8i هو التعبير السيليكوني عن هذا التموضع: شرائح مُصمَّمة خصيصاً لا تُحقق مزايا أدائها إلا ضمن مكدّس Google المتكامل رأسياً من البرمجيات والشبكات.
الأسئلة الشائعة
كيف يُقارن TPU 8t بمعمارية Blackwell من NVIDIA لتدريب الذكاء الاصطناعي المؤسسي؟
لم تنشر Google مقارنة أداء مباشرة مع NVIDIA Blackwell في إعلان TPU 8t. ادعاء التحسين 2,7x مقاس مقابل TPU Ironwood من الجيل السابع لـ Google، وليس مقابل عتاد NVIDIA. ينبغي للفرق المؤسسية معاملة رقم 2,7x كتحسين من جيل إلى جيل داخل منظومة Google وانتظار مقارنات أداء مستقلة من طرف ثالث.
ما التغييرات البرمجية المطلوبة لاستخدام TPU 8t لأحمال تدريب موجودة؟
أحمال العمل المكتوبة في JAX مع تحويل XLA القياسي تستلزم تغييرات طفيفة — تحديثات تكوين pod وتعديلات حجم batch محتملة. أحمال PyTorch تستلزم ترحيلاً إلى JAX أو استخدام PyTorch/XLA (معاينة).
هل TPU 8t و8i متاحان الآن وكيف يعمل الوصول المؤسسي؟
منذ إعلان 22 أبريل 2026، أتاحت Google الشريحتين عبر نظام حجز قائم على الحصص في Google Cloud. يمكن للمؤسسات تسجيل اهتمامها على cloud.google.com/tpu. لم تُكشَف تفاصيل التسعير علناً.
المصادر والقراءات الإضافية
- التعمق التقني في TPU 8t وTPU 8i — Google Cloud Blog
- وحدات المعالجة TPU من الجيل الثامن: شريحتان لعصر الوكلاء — Google Blog
- ملخص Google Cloud Next 2026 — Google Cloud Blog
- Google تُشغّل مسارَين مزدوجَين لـ TPU 8 — The Register
- وحدتا TPU جديدتان لتشغيل موجة الذكاء الاصطناعي التالية في Google — SiliconAngle
















