Google Ironwood
Google Ironwood

Ironwood, TPU Generasi Terbaru untuk Era Inferensi AI

Mohamad Mamduh • 09 April 2025 19:15
Jakarta: Di ajang Next ’25, Google memperkenalkan Ironwood, Tensor Processing Unit (TPU) generasi ketujuh. Ironwood diklaim sebagai sebuah lompatan kuantum yang dirancang khusus untuk era inferensi kecerdasan buatan (AI) yang semakin kompleks dan masif.
 
Ironwood dirancang untuk mendukung fase selanjutnya dari AI generatif, yang memiliki tuntutan komputasi dan komunikasi yang sangat besar. Sistem ini dapat diskalakan hingga 9.216 chip yang didinginkan dengan cairan, terhubung dengan jaringan Inter-Chip Interconnect (ICI) terobosan yang mencakup hampir 10 MW.
 
Ironwood adalah salah satu komponen baru dari arsitektur Google Cloud AI Hypercomputer, yang mengoptimalkan perangkat keras dan perangkat lunak secara bersamaan untuk beban kerja AI yang paling berat. Dengan Ironwood, pengembang juga dapat memanfaatkan tumpukan perangkat lunak Pathways milik Google sendiri untuk memanfaatkan daya komputasi gabungan dari puluhan ribu TPU Ironwood secara andal dan mudah.

Ironwood dirancang untuk mengelola tuntutan komputasi dan komunikasi yang kompleks dari "model berpikir," yang mencakup Large Language Models (LLM), Mixture of Experts (MoE), dan tugas penalaran tingkat lanjut. Model-model ini membutuhkan pemrosesan paralel masif dan akses memori yang efisien.
 
Secara khusus, Ironwood dirancang untuk meminimalkan pergerakan data dan latensi pada chip saat melakukan manipulasi tensor yang masif. Pada batasnya, tuntutan komputasi model berpikir jauh melampaui kapasitas satu chip. Google merancang TPU Ironwood dengan jaringan ICI latensi rendah dan bandwidth tinggi untuk mendukung komunikasi sinkron dan terkoordinasi pada skala pod TPU penuh.
 
Untuk pelanggan Google Cloud, Ironwood tersedia dalam dua ukuran berdasarkan permintaan beban kerja AI: konfigurasi 256 chip dan konfigurasi 9.216 chip. Ketika diskalakan hingga 9.216 chip per pod dengan total 42,5 Exaflops, Ironwood mendukung lebih dari 24 kali daya komputasi superkomputer terbesar di dunia – El Capitan – yang hanya menawarkan 1,7 Exaflops per pod.
 
Ironwood memberikan daya pemrosesan paralel masif yang diperlukan untuk beban kerja AI yang paling berat, seperti model LLM atau MoE padat berukuran sangat besar dengan kemampuan berpikir untuk pelatihan dan inferensi. Setiap chip individual memiliki komputasi puncak 4.614 TFLOPs. 
 
Ironwood juga memiliki SparseCore yang ditingkatkan, akselerator khusus untuk memproses embedding ultra-besar yang umum dalam beban kerja peringkat dan rekomendasi tingkat lanjut. Dukungan SparseCore yang diperluas di Ironwood memungkinkan berbagai macam beban kerja untuk dipercepat, termasuk bergerak melampaui domain AI tradisional ke domain keuangan dan ilmiah.
 
Pathways, runtime ML milik Google yang dikembangkan oleh Google DeepMind, memungkinkan komputasi terdistribusi yang efisien di beberapa chip TPU. Pathways di Google Cloud membuat perpindahan dari satu Pod Ironwood menjadi mudah, memungkinkan ratusan ribu chip Ironwood untuk digabungkan untuk memajukan batas-batas komputasi AI generatif dengan cepat.
 
Dalam keterangannya, kinerja/watt Ironwood adalah 2x relatif terhadap Trillium, TPU generasi keenam Google yang diumumkan tahun lalu. Pada saat ketersediaan daya menjadi salah satu kendala untuk memberikan kemampuan AI, Google memberikan kapasitas yang jauh lebih besar per watt untuk beban kerja pelanggan.
 
Solusi pendinginan cairan canggih dan desain chip yang dioptimalkan dapat dengan andal mempertahankan hingga dua kali kinerja pendinginan udara standar bahkan di bawah beban kerja AI yang berat dan berkelanjutan. Faktanya, Ironwood hampir 30 kali lebih hemat daya daripada Cloud TPU pertama Google dari tahun 2018.
 
Peningkatan substansial dalam kapasitas High Bandwidth Memory (HBM). Ironwood menawarkan 192GB per chip, 6x lipat dari Trillium, yang memungkinkan pemrosesan model dan kumpulan data yang lebih besar, mengurangi kebutuhan transfer data yang sering dan meningkatkan kinerja.
 
Bandwidth HBM yang ditingkatkan secara dramatis, mencapai 7,2 Tbps per chip, 4,5x lipat dari Trillium. Bandwidth tinggi ini memastikan akses data yang cepat, penting untuk beban kerja intensif memori yang umum dalam AI modern.
 
Bandwidth Inter-Chip Interconnect (ICI) ditingkatkan. Ini telah ditingkatkan menjadi 1,2 Tbps dua arah, 1,5x lipat dari Trillium, memungkinkan komunikasi yang lebih cepat antar chip, memfasilitasi pelatihan dan inferensi terdistribusi yang efisien pada skala besar.
 
Cek Berita dan Artikel yang lain di
Google News
(MMI)




TERKAIT

BERITA LAINNYA

social
FOLLOW US

Ikuti media sosial medcom.id dan dapatkan berbagai keuntungan