Arm'ın 2023 Toplam Bilgi İşlem Çözümü kapsamındaki yeni çekirdekleri açıklandı ve oldukça ilgi çekiciler.
Hızlı Linkler
- Yalnızca 64 bit: "Görev tamamlandı"
- Arm Cortex-X4: Daha da fazla performans ve daha iyi verimlilik
- Arm Cortex-A720: Performans ve güç tüketimini dengeleme
- Arm Cortex A520: Verimliliği ikiye katlıyoruz
- DSU-120: 14 çekirdeğe kadar hesaplama kolaylığı
- Verimlilik yeni hedef
Arm, Android akıllı telefonunuzda kullanılan CPU çekirdeklerinin hemen hemen tamamını tasarlayan şirkettir ve her yıl o yılın amiral gemisi Snapdragon veya bir sonraki amiral gemisi MediaTek gibi yonga setlerinde daha sonra yer alacak yeni yinelemeleri duyurdu Boyut. Bu yıl amiral gemisi Cortex-X4 çekirdeğini, Cortex-A720 performans çekirdeğini ve Cortex-A520 verimlilik çekirdeğini piyasaya sürüyor. Bu çekirdekler, şirketin yeni Arm v9.2 uyumlu tasarımlarının ve şirketin 2023 için Toplam Bilgi İşlem Çözümünün veya TCS23'ün temelini oluşturuyor. Üstelik yeni bir DynamIQ Paylaşımlı Birimi ve güncellenmiş bir Immortalis-G720 GPU'yu da görüyoruz. Daha da önemlisi, bu çekirdeklerin hiçbirinin 32 bit'i desteklemediği 64 bit bilgi işleme doğru tam bir geçiştir.
Yeni çekirdeklerin üçü de geçen yılın mikro mimari mirasçılarıdır ve öncelikli olarak IPC'yi ve verimlilik kazanımlarını uygulamaya odaklanmıştır.
Yalnızca 64 bit: "Görev tamamlandı"
Arm'ın bu yılki Toplam Bilgi İşlem Çözümü'ndeki en büyük değişikliklerden biri yalnızca 64 bit'e geçiş. Geçen yılki A510R1, 32 bit AArch32 yürütme modunu desteklerken, geçen yıl TCS22 ile piyasaya sürülen A710 gibi, bu yıl Arm'ın çekirdekleri yalnızca AArch64'tür. Özellikle Android'deki 32-bit uygulamalar için zaman işliyor. Google, 2019'dan bu yana tüm uygulamaların güncellenmesini zorunlu kıldı 64 bitlik ikili dosyalar olarak yüklenir.
Arm'ın belirttiği gibi, 64 bitlik geçiş "görev tamamlandı" olarak değerlendiriliyor. Bunun nedeni Çin uygulama pazarının geçişte sektörün geri kalanını geride bıraktı ancak Çin uygulama mağazalarındaki uygulamaların büyük çoğunluğu artık 64 bit uyumlu, fazla.
Gecikmenin nedeni homojen bir uygulama ekosisteminin olmayışıydı; bu da farklı uygulama mağazalarının farklı geliştirici standartlarına ihtiyaç duyması anlamına geliyordu. Arm, Çin'deki çeşitli uygulama mağazalarıyla çalıştığından ve bir değişimin gerçekleşebileceğine dair defalarca yapılan uyarıların yanı sıra, bu uygulama mağazaları da geliştiricileri geçiş yapmaya teşvik ediyor.
Görünüşe göre bu geçişin bütünüyle gerçekleşmesinin zamanı geldi ve zaten bu Arm çekirdeklerini yeni yonga setlerinde görmemiz birkaç ay daha sürecek.
Arm Cortex-X4: Daha da fazla performans ve daha iyi verimlilik
Arm'ın X serisi çekirdekleri, birkaç yıl önce A serisinden ayrıldı; felsefe, ihtiyaç duyduğunda biraz daha fazla güç tüketmesine izin verilen güçlü bir çekirdek olmasıydı. Tipik olarak yonga seti üreticileri, sahip oldukları yeteneklere rağmen güce aç oldukları için bunlardan maksimum yalnızca bir veya ikisini içereceklerdir.
Yukarıdaki grafikten görebileceğiniz gibi Cortex-X4 şimdiye kadarki en güçlü Arm çekirdeğidir ancak bu hesaplama yetenekleri güç tüketimi pahasına gelir. Cortex-X4, geçen yılın X3'üne benziyor ve Arm'ın belirttiği gibi, geçen yılın çekirdeğiyle aynı frekanslarda bile çalıştırılabiliyor ve %40'a kadar daha az güç tüketebiliyor. Fiziksel boyutu %10'dan daha küçüktür ve şimdiye kadar üretilmiş en verimli Cortex-X çekirdeğidir.
Bu IPC iyileştirmelerinin nereden geldiğine gelince, X4'te bir dizi ön uç ve arka uç iyileştirmesi var. Bu ön uç iyileştirmelerinde, yanlış şube tahminleri performans açısından maliyetli olduğundan, şube tahminlerinin yeniden yazılması ve iyileştirilmesi için büyük miktarda çalışma yapıldı. Arm ayrıca 2 MB'lık L2 önbellek boyutunun, kıyaslamalarda değil, gerçek dünya kullanımında daha yüksek performans sağlayacağını da vaat ediyor.
Yeni Cortex-X4 çekirdeği, Aritmetik Mantık Birimlerinin (ALU'lar) sayısını 6'dan 8'e çıkarır ve ek bir dal ekler birimi (toplamda 3 adet), fazladan bir Çarpma Akümülatör birimi ekler ve kayan nokta ve karekök işlemlerini düzenler operasyonlar.
Arka uçta da bir takım iyileştirmeler var. Yük depolama hattı alınıp bölündüğünden, yük depolama adresi üretimi döngü başına üç talimattan dörde çıktı. Ayrıca L1'de banka çakışması iyileştirmelerinin yanı sıra iki kat çeviri bakış arabelleği de bulunmaktadır.
Tüm bunlar Arm'ın Cortex-X4'ünde etkileyici bir performans artışı sağlamak için bir araya geliyor. Sonuçta Cortex-X4'ten ortalama %15'lik bir performans artışı bekleyebilirsiniz. Arm'ın paylaştığı güç ve performans eğrisinde X4, hem performans hem de güç tüketimi açısından X3'ün önünde yer alıyor. Başka bir deyişle, bu %15'lik performans artışı oldukça önemli bir güç tüketimine neden oluyor. Ancak bunun tam olarak elma-elma karşılaştırması olmadığını da belirtmekte fayda var; Cortex-X3 geçen yıl 1MB L2 önbellekle gelmişti; bu, bir üreticinin bu yıl aynı L2 önbellek boyutuna bağlı kalması durumunda %15'lik bir performans artışı olmayabileceği anlamına geliyor.
Ancak kesin olan bir şey var ki o da X4'ü maksimum hızda çalıştırıyorsanız, muhtemelen büyük bir güç tüketen olacağıdır. Bu yıl bazı OEM'lerin geçen yıl yaptıklarını yapmaya devam ettiğini ve bu yılın yonga setlerinin çoğunu kutudan çıkardığını görebiliriz. Örneğin, hem OnePlus hem de Oppo bunu yapıyor ve aynı anda çalışırken bu güç verimliliği kazanımlarıyla X3 gibi performans puanları yüksekse, bu şirketlerin bunu yapmaya devam etmesi muhtemelen fayda sağlayacaktır. Bu yüzden. Genel anlamda bu %15'lik performans artışını göremeyebiliriz, ancak bunun yerine gelecek yılın yonga setlerinde daha fazla verimlilik artışı görebiliriz.
Arm Cortex-A720: Performans ve güç tüketimini dengeleme
Arm'ın X serisi çekirdekleri genellikle biraz çılgına dönerken, A serisi çekirdekler genellikle güç tüketimini performansla dengelemeyi amaçlar. Arm, Cortex-A720 ile geçen yıla göre A715 ile aynı güçte artırılmış performansla %20 daha verimli bir çekirdek vaat ediyor.
Bu yılın A720'deki iyileştirmelerin nereden geldiğine gelince, bunların çoğu ön uçta. Şube yanlış tahmin motorundan bir döngü çıkarılarak boru hatları kısaltıldı ve bu tek döngü düşüşünün kıyaslama testlerinde %1'lik bir artışa neden olduğu söyleniyor. Karşılaştırmalar genellikle en az şube yanlış tahminiyle sonuçlanır; bu, bunun genel gerçek dünya performansını muhtemelen daha önemli (ancak büyük ölçüde ölçülemez) bir miktarda artıracağı anlamına gelir.
Düzensiz çekirdekte, çekirdeğin kapladığı alanı veya verimliliğini etkilemeden performansı artırmaya yardımcı olan bir dizi yapısal iyileştirme görüyoruz. Yeni başlayanlar için, tıpkı X4'te olduğu gibi, kayan noktalı bölmeler ve karekök işlemleri artık ardışık düzendedir. Ayrıca kayan nokta, NEON ve SVE2 sayılarından tam sayılara daha hızlı aktarımlar ve işlemeyi hızlandıracak diğer genel iyileştirmeler de mevcut.
Arm, SPECint_base2006'da bir ISO süreci ve ISO frekansının kullanıldığı A720'nin performans ve verimlilik açısından geçen yılın A715'iyle nasıl karşılaştırıldığını göstermek için yukarıdaki grafiği paylaştı. Önbellek boyutları da aynı kalıyor, bu nedenle bu daha çok elma-elma karşılaştırması.
Güç tüketimi açısından A720, aynı güç seviyelerinde biraz daha fazla performans sunsa da, geçen yılın modeliyle büyük ölçüde aynı çizgide kalıyor. Arm, X4'te olduğu gibi A720'de de nasıl daha iyi hale geldiğini vurgulamaya odaklanıyor gibi görünüyor Bu çekirdeklerin sahip olduğu gücü sürekli olarak artırmak yerine, geçen yılın güç kısıtlamalarından daha iyi performans yapabilen.
Arm Cortex A520: Verimliliği ikiye katlıyoruz
Elbette Arm'ın çekirdekleri söz konusu olduğunda her şey performansla ilgili değil. X serisinin her şeyi ham hesaplama gücüne koyması ve A7xx'in hesaplama ihtiyaçları ile güç tüketimini dengelemesi ile A5xx serisi tamamen verimli işlemeye odaklanır. Alan başına en düşük güce sahip Arm v9.2 çekirdeğidir ve A510'da tanıtıldığını gördüğümüz birleştirilmiş çekirdek mimarisinin aynısını temel alır.
Bu birleştirilmiş çekirdek mimarisinin anlamı, bazı kaynakların iki çekirdek arasında paylaşılabileceği ve iki çekirdeğin bir "kompleks" halinde gruplandırılmıştır. L2 önbelleği, L2 çeviri görünüm arabelleği ve vektör veri yolları bunun içinde paylaşılır karmaşık. Açık olmak gerekirse, bu o anlama gelmiyor sahip olmak iki çekirdek halinde paketlenecek ve en yüksek performans için tek çekirdekli bir kompleks bir araya getirilebilecek. Aslında Arm'ın bize gösterdiği TCS2023 çekirdek düzenlerinden biri tek bir X4 çekirdeği, beş A720 çekirdeği ve üç A520 çekirdeği içeriyordu; bu da en az bir A520 çekirdeğinin yalıtılmış olduğu anlamına geliyor.
A520, verimliliği ön planda tutan bir tasarımdır ve diğer çekirdekler gibi Arm da büyük ölçüde son nesille aynı güç noktalarında bu verimliliği artırmaya odaklanmıştır. Buna, bazı performans özelliklerinin kaldırılması veya ölçeklendirilmesinin yanı sıra şube tahminlerinin iyileştirilmesi de dahildir. Sonuç olarak daha yüksek verimlilik sayesinde bu performans geri kazanıldı. İlginç bir şekilde Arm, A510'daki üçüncü ALU'yu kaldırarak mantık oluşturma ve sonuçları iletme konusunda güç tasarrufu sağladı.
Gerçek dünyadaki sonuçlarda, A520'nin öncüllerinden A720 ve X4 kadar büyük bir sıçrama olmadığı görülüyor. Daha düşük güç aralıklarındaki yeteneklerinin çoğu, yukarıdaki grafikte görülen A510'unkiyle örtüşüyor ve yalnızca performansın üst kademelerinde verimlilik artışları görüyoruz. İki çekirdek arasındaki performans ve güç farkı umut verici ancak A520 ile A510'u karşılaştırdığımızda gerçek dünyada herhangi bir fayda görüp göremeyeceğimiz belli değil. Sonuçta, gerçek dünyada ikisi arasındaki performans ve verimlilik farklarını gerçekten doğru bir şekilde ölçmek zordur.
DSU-120: 14 çekirdeğe kadar hesaplama kolaylığı
DynamIQ Paylaşımlı Birimi veya DSU, çok çekirdekli bir küme oluşturmak için bir veya daha fazla çekirdeği L3 bellek sistemi, kontrol mantığı ve harici arayüzlerle birleştirir. Tüm bu çekirdeklerin birbirleriyle iletişim kurmasını ve kaynakları paylaşmasını sağlayan esas olarak Arm'ın dokusudur. Bu, Arm'ın çekirdek tasarımlarıyla bir çip oluşturmak isteyen herhangi bir yonga seti üreticisi için yapbozun oldukça önemli bir parçası.
DSU-110'u temel alan Arm, DSU-120'de dahil olduğu çipin tamamına fayda sağlayacak bir dizi iyileştirme yaptı. Yeni başlayanlar için artık küme başına 14'e kadar çekirdek (12'den fazla) ve 32 MB'a kadar L3 önbellek desteği var. Ayrıca, önbellek eksiklikleri de dahil olmak üzere bir dizi önemli alanda verimliliği büyük ölçüde artırırken aynı zamanda güç sızıntısını da azaltır.
Arm'ın DSU'su bir bakıma TCS23'ün omurgasını oluşturuyor çünkü bu çekirdeklerin her birinin birbiriyle nasıl etkileşime girdiğinin ve veri paylaştığının temelini oluşturuyor. Buradaki herhangi bir iyileştirme tüm kümeye fayda sağlayacaktır ancak değişikliklerin çoğunun güç tüketimi ve verimlilikle ilgili olduğu görülmektedir.
Verimlilik yeni hedef
Sektör bir süredir değişiyor gibi görünüyor, ancak bu çekirdeklerden edindiğim ilk izlenim, verimliliğin artık oyunun adı olduğudur. Bize X4 çekirdeğinin ne kadar hızlı olduğu ve şirketin şimdiye kadarki en hızlı çekirdeği olduğu anlatılırken, geçen yılın en yüksek performansında çalıştırmanın getirdiği verimlilik artışlarını çok çabuk fark ettiler yerine.
Genel olarak, her performans artışı, o bileşenin ne kadar verimli olduğuyla destekleniyordu ve DSU'daki tüm değişiklikler az çok verimlilik ve güç sızıntısı ile ilgiliydi. Performans önemlidir, ancak gerçekten de sektörün bir bütün olarak güncelliği sağlamaya çalıştığı anlaşılıyor. Her yıl büyük performans artışlarına gitmek yerine hesaplama seviyelerini daha verimli hale getirin.
Bu çekirdeklerin MediaTek Dimensity 9400 ve Qualcomm Snapdragon 8 Gen 3'ün temelini oluşturmasını bekliyoruz, ancak hangi oluşumun devam edeceğini göreceğiz. Daha önce de belirtildiği gibi Arm, kendi dahili testlerinde 1+5+3 çekirdek düzeni kullanmaktan bahsetti ancak bu, MediaTek ve Qualcomm gibi ortakların bunu kendilerinin yapmak istediği anlamına gelmiyor.