Cortex X4, A720, dan A520 baru dari Arm adalah core 64-bit saja dengan fokus besar pada efisiensi

Inti baru Arm sebagai bagian dari Total Compute Solution untuk tahun 2023 telah diumumkan, dan itu cukup menarik.

tautan langsung

Hanya 64-bit: "Misi tercapai"

Arm Cortex-X4: Performa lebih baik dan efisiensi lebih baik

Arm Cortex-A720: Menyeimbangkan kinerja dan konsumsi daya

Arm Cortex A520: Menggandakan efisiensi

DSU-120: Hingga 14 inti kebaikan komputasi

Efisiensi adalah tujuan baru

Arm adalah perusahaan yang merancang hampir semua inti CPU yang akhirnya digunakan di ponsel pintar Android Anda, dan setiap tahunnya mengumumkan iterasi baru yang nantinya akan diterapkan pada chipset seperti Snapdragon andalan tahun itu atau MediaTek andalan berikutnya Dimensi. Tahun ini, mereka merilis inti andalan Cortex-X4, inti kinerja Cortex-A720, dan inti efisiensi Cortex-A520. Inti-inti ini menjadi dasar desain baru yang kompatibel dengan Arm v9.2 dan Solusi Komputasi Total perusahaan untuk tahun 2023, atau TCS23. Selain itu, kami juga melihat Unit Bersama DynamIQ baru dan GPU Immortalis-G720 yang diperbarui. Yang lebih besar lagi adalah transisi lengkap menuju komputasi 64-bit, dengan tidak ada satu pun inti yang mendukung 32-bit.

Ketiga inti baru ini merupakan penerus mikroarsitektur tahun lalu dan fokus utamanya adalah memperkenalkan IPC dan peningkatan efisiensi.

Hanya 64-bit: "Misi tercapai"

Salah satu perubahan terbesar dalam Total Compute Solution tahun ini dari Arm adalah transisi ke 64-bit saja. Meskipun A510R1 tahun lalu mendukung mode eksekusi AArch32 32-bit, seperti halnya A710 yang diluncurkan dengan TCS22 tahun lalu, tahun ini, inti Arm hanya menggunakan AArch64. Jam terus berjalan untuk aplikasi 32-bit di Android, terutama sejak saat itu Google sendiri telah mengamanatkan agar semua aplikasi diperbarui sejak 2019 diunggah sebagai biner 64-bit.

Seperti yang dikatakan Arm, transisi 64-bit dianggap sebagai "misi tercapai". Alasannya adalah karena pasar aplikasi Tiongkok adalah apa menghambat industri lainnya dalam masa transisi, namun sebagian besar aplikasi di toko aplikasi Tiongkok kini mendukung 64-bit, juga.

Alasan penundaan ini adalah kurangnya ekosistem aplikasi yang homogen, yang berarti bahwa toko aplikasi yang berbeda memerlukan standar pengembang yang berbeda. Namun, karena Arm telah bekerja sama dengan berbagai toko aplikasi di Tiongkok, seiring dengan peringatan berulang kali bahwa peralihan akan terjadi, toko aplikasi tersebut telah mendorong pengembang untuk beralih juga.

Tampaknya waktunya telah tiba untuk transisi ini terjadi secara keseluruhan, dan akan ada beberapa bulan lagi sampai kita melihat inti Arm ini di chipset baru.

Arm Cortex-X4: Performa lebih baik dan efisiensi lebih baik

Inti seri X Arm menyimpang dari seri A beberapa tahun yang lalu, dengan filosofi bahwa itu adalah inti yang kuat yang diperbolehkan menghabiskan lebih banyak daya saat dibutuhkan. Biasanya, pembuat chipset hanya akan memasukkan maksimal satu atau dua chipset ini, karena mereka haus daya, meskipun kemampuan yang mereka miliki juga.

Seperti yang dapat Anda lihat dari grafik di atas, Cortex-X4 adalah inti Arm paling kuat yang pernah ada, namun kemampuan komputasi tersebut harus mengorbankan konsumsi daya. Cortex-X4 mirip dengan X3 tahun lalu, dan seperti yang dikatakan Arm, bahkan dapat dijalankan pada frekuensi yang sama dengan inti tahun lalu dan menggunakan daya hingga 40% lebih sedikit. Ukuran fisiknya kurang dari 10% lebih besar dan merupakan inti Cortex-X paling efisien yang pernah dibuat.

Mengenai asal muasal peningkatan IPC tersebut, ada sejumlah peningkatan front-end dan back-end pada X4. Dalam penyempurnaan front-end tersebut, banyak pekerjaan yang dilakukan untuk menulis ulang dan menyempurnakan prediksi cabang, karena prediksi cabang yang salah akan memakan biaya, dan dari segi kinerja. Arm juga menjanjikan bahwa ukuran cache L2 sebesar 2MB menghasilkan kinerja yang lebih tinggi, tidak terlalu banyak dalam benchmark tetapi dalam penggunaan di dunia nyata.

Inti Cortex-X4 baru meningkatkan jumlah Unit Logika Aritmatika (ALU) dari 6 menjadi 8, menambah cabang tambahan unit (total 3), menambahkan unit Multiply-Accumulatator tambahan, dan menyalurkan floating point dan akar kuadrat operasi.

Sedangkan untuk bagian belakang, ada sejumlah perbaikan juga. Pembuatan alamat penyimpanan beban telah berubah dari tiga instruksi menjadi empat instruksi per siklus, seiring dengan diambilnya pipa penyimpanan beban dan dipecah. Ada juga buffer terjemahan terjemahan yang berlipat ganda di L1, seiring dengan perbaikan konflik bank.

Semua ini bersatu untuk menghadirkan peningkatan kinerja yang mengesankan di Arm's Cortex-X4. Secara keseluruhan, Anda dapat mengharapkan peningkatan kinerja rata-rata sebesar 15% dengan Cortex-X4. Dalam kurva daya dan kinerja yang dimiliki oleh Arm, X4 lebih unggul dari X3 dalam hal kinerja dan konsumsi daya. Dengan kata lain, peningkatan kinerja sebesar 15% ini menghasilkan konsumsi daya yang cukup signifikan. Namun, perlu disebutkan juga bahwa ini bukanlah perbandingan apel-ke-apel; Cortex-X3 hadir dengan cache L2 sebesar 1MB pada tahun lalu, yang berarti bahwa jika produsen tetap menggunakan ukuran cache L2 yang sama pada tahun ini, belum tentu akan terjadi peningkatan kinerja sebesar 15%.

Namun, ada satu hal yang pasti, dan jika Anda menjalankan X4 dengan kecepatan maksimum, kemungkinan besar itu akan menghabiskan banyak daya. Kita mungkin melihat beberapa OEM tahun ini terus melakukan apa yang mereka lakukan tahun lalu dan membatasi banyak chipset tahun ini. Misalnya, OnePlus dan Oppo sama-sama melakukan hal ini, dan dengan hal tersebut efisiensi daya meningkat saat dijalankan pada waktu yang sama poin kinerjanya sama dengan X3, kemungkinan besar akan ada manfaat bagi perusahaan-perusahaan tersebut untuk terus melakukan hal tersebut Jadi. Kita mungkin tidak melihat peningkatan kinerja sebesar 15% secara keseluruhan, namun kita mungkin melihat peningkatan efisiensi lebih lanjut untuk chipset tahun depan.

Arm Cortex-A720: Menyeimbangkan kinerja dan konsumsi daya

Meskipun inti seri X Arm biasanya dibiarkan bekerja sedikit liar, inti seri A biasanya bertujuan untuk menyeimbangkan konsumsi daya dengan kinerja. Dengan Cortex-A720, Arm menjanjikan inti yang 20% lebih efisien, dengan peningkatan kinerja pada daya yang sama seperti A715 dari tahun lalu.

Adapun dari mana penyempurnaan A720 tahun ini, sebagian besar berada di bagian front end. Saluran pipa telah diperpendek dengan satu siklus dihilangkan dari mesin kesalahan prediksi cabang, dengan penurunan satu siklus ini dikatakan menyebabkan peningkatan tolok ukur sebesar 1%. Tolok ukur biasanya menghasilkan kesalahan prediksi cabang yang paling sedikit, yang berarti bahwa hal ini kemungkinan akan meningkatkan kinerja dunia nyata secara keseluruhan dalam jumlah yang lebih signifikan (namun sebagian besar tidak dapat diukur).

Pada inti yang rusak, kami melihat sejumlah perbaikan struktural yang membantu meningkatkan kinerja tanpa berdampak pada area yang ditempati oleh inti atau efisiensinya. Sebagai permulaan, seperti di X4, pembagian floating point dan operasi akar kuadrat kini disalurkan. Ada juga transfer yang lebih cepat dari nomor floating point, NEON, dan SVE2 ke bilangan bulat dan peningkatan keseluruhan lainnya untuk mempercepat pemrosesan.

Arm membagikan grafik di atas untuk menggambarkan bagaimana A720 dibandingkan dengan A715 tahun lalu dalam hal kinerja dan efisiensi, di mana proses ISO dan frekuensi ISO digunakan di SPECint_base2006. Ukuran cache juga tetap sama, jadi ini adalah perbandingan yang sangat mirip dengan apel.

Dalam hal konsumsi daya, A720 tetap sejalan dengan model tahun lalu, meskipun kinerjanya sedikit lebih baik pada tingkat daya yang sama. Dengan A720, seperti halnya X4, Arm tampaknya lebih fokus untuk menyoroti bagaimana hal itu menjadi lebih baik kinerja dari kendala daya tahun lalu daripada terus meningkatkan daya inti ini mampu.

Arm Cortex A520: Menggandakan efisiensi

Tentu saja, jika menyangkut inti Arm, yang terpenting bukanlah performa. Dengan seri X yang mengerahkan segalanya ke dalam daya komputasi mentah dan A7xx menyeimbangkan kebutuhan komputasi dan penggunaan daya, seri A5xx hanya berfokus pada pemrosesan yang efisien. Ini adalah inti dengan daya terendah per area Arm v9.2 dan dibangun di atas arsitektur inti gabungan yang sama yang kami lihat diperkenalkan dengan A510.

Arti dari arsitektur inti gabungan ini adalah bahwa beberapa sumber daya dapat dibagi antara dua inti, di mana dua inti dapat berada dikelompokkan menjadi “kompleks”. Cache L2, buffer terjemahan L2, dan jalur data vektor dibagikan di dalamnya kompleks. Untuk lebih jelasnya, ini tidak berarti demikian memiliki untuk digabungkan menjadi dua inti, dan kompleks satu inti dapat dirakit untuk kinerja puncak. Faktanya, salah satu tata letak inti TCS2023 Arm yang mereka tunjukkan kepada kami melibatkan satu inti X4, lima inti A720, dan tiga inti A520, yang berarti bahwa setidaknya satu inti A520 berada dalam isolasi.

A520 adalah desain yang mengutamakan efisiensi, dan seperti inti lainnya, Arm berfokus pada peningkatan efisiensi pada titik daya yang sama seperti generasi terakhir. Hal ini termasuk meningkatkan prediksi cabang sekaligus menghapus atau mengurangi beberapa fitur kinerja. Hasilnya, kinerja ini dipulihkan melalui efisiensi yang lebih besar. Menariknya juga, Arm telah menghilangkan ALU ketiga yang ada di A510, sehingga menghemat daya dalam mengeluarkan logika dan meneruskan hasil.

Dalam hasil nyata, tampaknya A520 tidak mengalami lompatan sebesar pendahulunya seperti A720 dan X4. Sebagian besar kemampuannya pada interval daya yang lebih rendah tumpang tindih dengan A510 dari grafik di atas, dan hanya pada kinerja eselon atas kita dapat melihat peningkatan efisiensi. Perbedaan kinerja dan kekuatan antara kedua inti ini cukup menjanjikan, tetapi tidak jelas apakah kita akan melihat manfaat nyata saat membandingkan A520 dengan A510. Lagi pula, sulit untuk mengukur dengan tepat perbedaan kinerja dan efisiensi antara keduanya di dunia nyata.

DSU-120: Hingga 14 inti kebaikan komputasi

Unit Bersama DynamIQ, atau DSU, adalah mengintegrasikan satu atau lebih inti dengan sistem memori L3, logika kontrol, dan antarmuka eksternal untuk membentuk kluster multiinti. Ini pada dasarnya adalah struktur Arm yang memungkinkan semua inti ini berkomunikasi satu sama lain dan berbagi sumber daya, dan sebagai Oleh karena itu, ini adalah bagian teka-teki yang cukup penting bagi pembuat chipset mana pun yang ingin membuat chip dengan desain inti Arm.

Berdasarkan DSU-110, Arm telah membuat sejumlah perbaikan pada DSU-120 yang akan memberikan manfaat bagi keseluruhan chip yang disertakan di dalamnya. Sebagai permulaan, sekarang terdapat hingga 14 core per cluster (naik dari 12) dan mendukung cache L3 hingga 32MB. Hal ini juga sangat meningkatkan efisiensi di sejumlah area utama, termasuk jika terjadi kesalahan cache, sekaligus mengurangi kebocoran daya.

Di satu sisi, DSU Arm adalah tulang punggung TCS23 karena membentuk dasar bagaimana masing-masing inti berinteraksi satu sama lain dan berbagi data. Setiap perbaikan di sini akan menguntungkan seluruh cluster, namun tampaknya sebagian besar perubahan berkaitan dengan konsumsi daya dan efisiensi.

Efisiensi adalah tujuan baru

Industri ini nampaknya telah mengalami pergeseran selama beberapa waktu, namun kesan pertama yang saya dapatkan dari inti-inti ini adalah efisiensi yang kini menjadi kunci utama. Meskipun kami diberitahu tentang seberapa cepat inti X4 dan seberapa cepat inti tersebut menjadi inti tercepat perusahaan, mereka dengan cepat mencatat peningkatan efisiensi menjalankannya pada kinerja puncak tahun lalu alih-alih.

Secara keseluruhan, setiap peningkatan kinerja didukung oleh seberapa efisien komponen tersebut, dan kurang lebih, semua perubahan DSU terjadi pada efisiensi dan kebocoran daya. Kinerja memang penting, namun rasanya industri secara keseluruhan sedang berusaha untuk membuat yang terbaru tingkat komputasi yang lebih efisien daripada meningkatkan kinerja secara besar-besaran dari tahun ke tahun.

Kami berharap inti-inti ini akan menjadi dasar MediaTek Dimensity 9400 dan Qualcomm Snapdragon 8 Gen 3, tetapi formasinya masih harus dilihat. Seperti disebutkan sebelumnya, Arm berbicara tentang penggunaan tata letak inti 1+5+3 dalam pengujian internalnya, namun hal itu tidak berarti bahwa mitra seperti MediaTek dan Qualcomm ingin melakukannya sendiri.