Wywiad: Qualcomm na temat Kryo 485 i Hexagon 690 ze Snapdragonem 855

Travis Lanier z Qualcomm spotkał się z XDA w celu przeprowadzenia wywiadu na temat procesora Kryo 485 na platformie mobilnej Snapdragon 855 i marketingu procesora DSP Hexagon 690.

W zeszłym miesiącu Qualcomm zaprezentował Platforma mobilna Snapdragon 855. Snapdragon 855 to platforma mobilna, która będzie zasilać większość flagowych smartfonów z Androidem w 2019 roku. Firma Qualcomm z roku na rok dokonała znacznych ulepszeń dzięki platformie mobilnej nowej generacji. Platforma mobilna Snapdragon 855 jest zbudowana w procesie produkcyjnym 7 nm i oferuje imponujący wzrost wydajności procesora o 45% w porównaniu ze Snapdragonem 845. Ulepszenia obliczeń we wszystkich obszarach pozwalają Qualcomm pochwalić się doskonałą wydajnością sztucznej inteligencji na nowym Snapdragonie 855. Jest tu wiele informacji do rozpakowania i dołożyliśmy wszelkich starań, aby je pokazać jak Qualcomm poprawił wydajność i sztuczną inteligencję na Snapdragonie 855. Jednakże po zaprezentowaniu produktu nadal mieliśmy własne pytania, więc usiedliśmy z Travisem Lanierem, starszym Dyrektor ds. zarządzania produktami w Qualcomm, aby porozmawiać o procesorze Kryo 485 i sztucznej inteligencji w nowym telefonie komórkowym Qualcomm platforma.


Mario Serrafero: „45% [skok], to jak największy wynik w historii. Rozwińmy to. Mamy podstawę A76, 7 nm – to wielcy współautorzy. Wygląda na to, że odkąd odeszliście od niestandardowych rdzeni, niektóre publikacje i odbiorcy nie mam zielonego pojęcia, co oznacza licencja „Built on ARM” w kontekście tego, na co pozwala ty zrobić. Byłeś dość tajemniczy, jeśli chodzi o to, co to oznacza. Teraz jesteś na scenie po raz pierwszy, przynajmniej poza pytaniami i odpowiedziami,…ale po raz pierwszy pokazałeś, jakie były niektóre ulepszenia i to jest fajne. Zastanawialiśmy się więc, czy nie chciałbyś rozwinąć sposobu, w jaki Qualcomm dostroił Kryo 485, aby wycisnąć więcej z Baza ARM, niezależnie od tego, czy dotyczy to rzeczy, które tam ujawniłeś, czy czegoś, czego nie przedstawiłeś.

Travisa Laniera: „Nie mogę więc powiedzieć zbyt wiele więcej na temat tego, co było na moich slajdach. Być może w przyszłości będziemy mogli to zrobić, abyśmy mogli usiąść i pozyskać ekspertów, którzy faktycznie wykonali tę pracę; Znam tematy rozmów na wysokim szczeblu. Ale jak wiadomo, A76 to już konstrukcja na wysokim poziomie – jest całkiem niezła. I to jest jeden z powodów, dla których zobaczyliśmy plan działania ARM. Więc pomyślałem: OK, może powinniśmy bliżej współpracować z tymi chłopakami, bo wyglądało to na bardzo mocne. Wracam tylko do Twojego komentarza na temat dostosowywania w porównaniu z ARM. Więc OK, jest wszystko, co możesz zrobić. A jeśli już coś robisz i to musi mieć zróżnicowanie, żebyś mógł coś zrobić na sto procent lub nawiązać z nimi współpracę. I [podobnie jak] w poprzednich latach, trochę bardziej skupiamy się na integracji. A więc autobusy i sposób, w jaki podłączyliśmy się do systemu, ich funkcje bezpieczeństwa, które umieściliśmy w procesorach, konfiguracje pamięci podręcznej. Teraz, gdy spotkania trwały już dłużej, mogliśmy dokonać głębszej personalizacji tego wydarzenia. I w ten sposób udało nam się umieścić tam niektóre z tych rzeczy, na przykład większe [niewłaściwe] okna wykonawcze, prawda, więc masz więcej instrukcje w locie, wstępne pobieranie danych jest w rzeczywistości jednym z obszarów, w którym dzieje się najwięcej innowacji w branży mikroprocesorów już teraz. Wiele technik dla wielu z tych rzeczy jest dość podobnych, obecnie wszyscy używają predyktora rozgałęzień TAGE, niezależnie od tego, jak duży jest to udostępniany, ludzie wiedzą, jak to zrobić poza kolejnością, przekazywaniem i tym podobnymi rzeczami w przypadku większych pamięci podręcznych. Ale pobierania z wyprzedzeniem jest wciąż dużo, to jedna z tych rzeczy w stylu mrocznej sztuki. Zatem w tej przestrzeni wciąż pojawia się wiele innowacji. Uznaliśmy więc, że w tym możemy pomóc.

A potem tylko dlatego, że uważamy, że ogólnie lepiej radzimy sobie z... zazwyczaj możemy wdrożyć projekt szybciej niż inni mogą zintegrować węzeł procesu. Kiedy więc umieścimy tam niektóre z tych rzeczy, na przykład gdy będziesz bardziej niesprawny, spowoduje to większe obciążenie projektu, prawda? Dodanie tam wszystkich tych elementów związanych z wykonaniem nie jest bezpłatne. Więc, aby móc to zrobić i nie mieć trafienia w swoje fmaks. Tak, to część naszej współpracy z ARM, jak to zrobić?”

Mario Serrafero: „Tak z ciekawości, w prezentacji wspomniałeś o nadchodzących poprawach wydajności z pobierania wstępnego, czy mówiłeś o wydajności energetycznej, poprawie wydajności, trochę Zarówno?"

Travisa Laniera: "Wszystko powyższe. Zatem z natury rzeczy wykonujemy pobieranie z wyprzedzeniem — pobierasz elementy z pamięci podręcznej. Jeśli więc pamięć podręczna nie wykonuje tak wielu dostępów do pamięci, pobieranie z wyprzedzeniem ma drugą stronę: jeśli wykonujesz zbyt dużo pobierania z wyprzedzeniem, [używasz] więcej pamięci, ponieważ wiesz, [robisz] za dużo spekulatywnego pobierania z wyprzedzeniem, ale jeśli masz coś w sobie i wyciągasz właściwe rzeczy, to nie odwołujesz się do pamięci, aby to pobrać Tam. Jeśli więc masz bardziej wydajny moduł pobierania wstępnego, oszczędzasz energię i zwiększasz wydajność.

Mario Serrafero: „OK, super, tak. Tak, nie spodziewałem się, że będziesz w stanie rozwinąć się znacznie dalej, ale to interesujące, że jeśli to powiesz teraz bardziej dostosowujecie i być może w przyszłości będziecie mogli udostępnić więcej, więc będę mieć na to oko. Zatem drugi rodzaj przyciągający wzrok, przynajmniej wśród ludzi, którymi się otaczam, to główny rdzeń. Dlatego też od kilku lat spodziewaliśmy się bardziej elastycznych rozwiązań klastrowych wraz z włączeniem DynamIQ i spodziewaliśmy się, że inne firmy odejdą od układu 4+4. Zatem dwa pytania: jaki był motyw pierwotnego rdzenia? W jaki sposób główny rdzeń wpływa na wygodę użytkownika, ponieważ nasi czytelnicy chcieliby wiedzieć, dlaczego jest tam tylko samotny rdzeń i dlaczego nie jest to całkiem samotny rdzeń? Czy współdzielenie płaszczyzny zasilania z klastrem wydajności nie zmniejszyłoby w pewnym sensie użyteczności, którą można uzyskać, korzystając z DynamIQ i w pewnym sensie siedząc [go] samodzielnie?”

Travisa Laniera: „Porozmawiajmy więc najpierw o różnych zegarach i różnych płaszczyznach napięcia. Zatem za każdym razem, gdy dodajesz zegar i za każdym razem, gdy dodajesz napięcie, wiąże się to z kosztami. Istnieje więc ograniczenie liczby pinów, które można umieścić w pakiecie, jest więcej PLL, które musisz mieć dla różnych zegarów, i po prostu wzrasta złożoność. Istnieje więc kompromis w zakresie robienia różnych rzeczy. W pewnym momencie poszliśmy trochę ekstremalnie; mieliśmy cztery różne domeny na czterech różnych zegarach, więc mieliśmy z tym doświadczenie, ale było to drogie. Coś w rodzaju, kiedy zaczynasz robić coś wielkiego. LITTLE, masz małe rdzenie w małej gromadzie i nie potrzebują one takiej samej szczegółowości, że tak powiem, oddzielnego zegara pomiędzy małymi rdzeniami. Tak, to wisi w powietrzu, co z nimi robisz. Więc kiedy masz duży. LITTLE, to odwrotnie, masz te duże rdzenie. No dobrze, czy umieściłeś każdy z nich na dużym zegarze? Cóż, nie będziesz na nich pracował cały czas, jeśli faktycznie znajdziesz się w wystarczająco niskiej sytuacji, w której niezajęty zegar i tak będzie działał na małym rdzeniu. Więc tak naprawdę, to w pewnym sensie dwójka jest tam wystarczająco dobra.

A potem dochodzimy do miejsca, w którym mieliśmy ten główny rdzeń, gdzie OK, mamy oddzielny rdzeń zegara, który może pracować z wyższą częstotliwością. Ale te inne rdzenie, inne klastry wydajności, nie mogą osiągnąć tej samej wysokiej częstotliwości. Jeśli więc chcesz uzyskać pełne uprawnienia dla tego rdzenia, musisz mieć trzeci zegar dla tego rdzenia. Co więc robi ten rdzeń? Trochę tego dotykaliśmy. Najważniejszymi rzeczami będą program uruchamiający aplikacje i przeglądanie stron internetowych. Dlaczego więc tylko jeden rdzeń? OK, sprawy stają się teraz bardziej wielowątkowe. Na przykład silniki gier – wrócę do tego za chwilę – bardzo agresywnie idą w kierunku większej liczby wątków. Ale jeśli spojrzysz na większość aplikacji, nawet jeśli mają wiele wątków, użyję reguły Pareto, jak większość z nich, 80% obciążenia znajduje się w jednym wątku. Możesz więc uruchomić aplikację, która może uruchomić się i zaświecić na wszystkich 8 rdzeniach. Ale najprawdopodobniej 80% z nich znajduje się w jednym dominującym wątku – w tym jednym rdzeniu. Przeglądanie stron internetowych to nadal przede wszystkim, cóż, powiedziałbym, JavaScript — przeglądanie sieci stało się nieco lepsze dzięki wielowątkowości, w której możesz mieć wiele obrazów i możesz je dekodować. Ale na przykład JavaScript — pojedynczy wątek będzie działał na jednym rdzeniu. Istnieje więc wiele przypadków użycia, które korzystają z posiadania tego jednego rdzenia, który działa naprawdę wysoko.

Teraz mamy trzy rdzenie pracujące nieco z niższą częstotliwością, ale są też bardziej energooszczędne. I tak za każdym razem, gdy – nie wiem, ile wiesz o implementacji rdzeni – ale kiedy zaczynasz osiągać szczyt częstotliwości i implementacje tych rdzeni, następuje kompromis w mocy, sprawy zaczynają nabierać tempa wykładniczego w tych ostatnich kilku megahercach lub gigahercach, które Posiadać. Tak, więc mówiłem sekundę temu, że hej, wszystkie gry zaczynają być wielowątkowe, jak wszystkie nagle, jeśli spojrzysz wstecz, nie tak dawno temu było kilka gier i używali tylko jednej nitka. Ale to dziwne, jak szybko branża może się zmienić. Tak jak przez ostatni rok, półtora, dosłownie zaczęli wprowadzać wszystkie te gry do… Bardzo ekscytowały mnie te gry o wysokiej jakości. I tak, podczas gdy wiele rzeczy miało miejsce sześć miesięcy czy rok temu, tak naprawdę wszystko to wywróciło się do góry nogami w całych Chinach. W Chinach słyszę: „Nie interesują mnie duże rdzenie, daj mi ósemkę z czegokolwiek, daj mi osiem z najmniejsze rdzenie, żebym mógł mieć osiem rdzeni.” Zmienili się, bo chcą tych gier, te gry tego wymagają duże rdzenie. A teraz otrzymujemy opinie od partnerów, że „nie, tak naprawdę chcemy czterech dużych rdzeni” ze względu na wszystkie zaawansowane gry, które wychodzą na rynek. I zamierzają wykorzystać wszystkie te rdzenie.

Więc kiedy grasz, nie grasz przez 30 sekund czy 5 minut, grasz dłużej. Zatem ma to sens, ponieważ w większości przypadków użycia wielowątkowych dużych rdzeni mamy te trzy inne rdzenie, a one chcą mieć nieco większą wydajność energetyczną. To się równoważy, masz rdzeń o wyższej wydajności, kiedy potrzebujesz go do niektórych z tych rzeczy z tych trwałych przypadków, w których mają one również duże rdzenie i masz do sparowania to bardziej energooszczędne rozwiązanie To. Taki jest sposób myślenia – to rodzaj niezwykłej symetrii. Ale miejmy nadzieję, że to odpowiada na pytanie, dlaczego [istnieje] główny rdzeń, dlaczego nie masz oddzielnych zegarów i dlaczego nie masz oddzielnych napięć? Myślę więc, że dotknąłem tego wszystkiego”.

Konfiguracja rdzenia procesora Kryo 485. Źródło: Qualcomm.

Mario Serrafero: „Teraz heterogeniczne obliczenia. Na to właśnie kładzie nacisk Qualcomm od czasu odejścia od starego brandingu na rzecz platformy mobilnej, i tego rodzaju [a] deskryptor, a także agregowanie bloków opisujących pewne wskaźniki wydajności, takie jak sztuczna inteligencja Jak przebiegała ta ewolucja w przejściu na bardziej heterogeniczne podejście obliczeniowe? Wszędzie, od projektu, przez wykonanie, po marketing, lub cokolwiek innego, czego możesz dotknąć. ”

Travisa Laniera: „To idzie trochę w tę i z powrotem. Ale ostatecznie musisz mieć te silniki, ponieważ w urządzeniach mobilnych najważniejsza jest wydajność energetyczna. Teraz czasami widać, jak co jakiś czas powraca do uogólnienia. Jeśli wrócisz do oryginału, nawet w przypadku smartfonów, telefony z internetem miały multimedia i aparat możliwości w pewnym stopniu, więc mają te wszystkie małe, dedykowane rzeczy, ponieważ ty nie możesz Zrób to. Jeśli wrócisz do telefonów zbudowanych na ARM 9 lub ARM 7, wszystkie miały widżet przyspieszania sprzętowego do wszystkiego.

Ale podając przykład, w którym coś poszło ogólnie, a teraz znowu proszą o sprzęt, byłby to JPEG. Kiedyś istniał akcelerator JPEG. Procesor w końcu stał się wystarczająco dobry i był wystarczająco energooszczędny, a pliki JPEG w pewnym sensie pozostały takie same ten sam rozmiar, hej, wiesz co, po prostu zrobimy to na procesorze, [ponieważ] jest to po prostu łatwiejsze To. Teraz, gdy zdjęcia stają się coraz większe, nagle ludzie zaczynają chcieć, właściwie, chcę, żeby pliki zdjęć o naprawdę gigantycznych rozmiarach zostały przyspieszone. Procesory albo nie są wystarczająco szybkie, albo zużywają za dużo energii. Po prostu nagle pojawiło się zainteresowanie potencjalnym ponownym posiadaniem akceleratorów JPEG. Zatem sprawy nie zawsze przebiegają w linii prostej, dlatego należy przyjrzeć się temu, co dzieje się obecnie z prawem Moore’a. Wszyscy ciągle mówią: hej, może i nie jesteś martwy, ale wszystko trochę zwalnia, prawda? Jeśli więc nie uzyskasz takiego zwiększenia mocy lub wydajności z każdego kolejnego węzła, jak możesz nadal dodawać więcej funkcji do telefonu, jeśli nie masz takiego obciążenia? Więc możesz po prostu umieścić go na procesorze. Ale jeśli nie masz więcej miejsca na procesor, jak przyspieszyć te rzeczy? Cóż, odpowiedź brzmi: wydajniej umieszczasz wszystkie te wyspecjalizowane rdzenie i inne rzeczy. I to jest to naturalne napięcie.

Zobaczysz, że ludzie są zmuszani do wykonywania tych czynności w ramach typowych funkcji, ponieważ być może nie wszyscy będą na krawędzi. Ale z pewnością postaramy się pozostać tam jak najdłużej, ale nie możemy zmusić fabryk do przeniesienia się do następnego węzła, jeśli niekoniecznie tam jest. Dlatego właśnie należy koncentrować się na ciągłych innowacjach i architekturach, aby w dalszym ciągu uzyskiwać lepszą wydajność i efektywność energetyczną. To jest nasza siła i nasze pochodzenie.”

Mario Serrafero: „Mimo że nastąpiło przejście w stronę obliczeń heterogenicznych, ze strony Qualcomm wielu odbiorców i z pewnością wiele publikacji, z pewnością Co zaskakujące, wielu entuzjastów, o których myślisz, że wiedzą lepiej, nadal myślą, rozważają i oceniają bloki jako osobne podmioty. Nadal skupiają się na stwierdzeniu: „Chcę zobaczyć numery procesorów, bo na tym mi zależy”. Chcą zobaczyć numery GPU, ponieważ lubią gry, i tak dalej, i tak dalej. Nie uważają ich za komunikowane części jednego integralnego produktu. Jak myślisz, w jaki sposób Qualcomm zmienił, jest i może zniszczyć ten paradygmat, podczas gdy konkurenci w rzeczywistości skupiają się na tym konkretnym, stopniowym udoskonalaniu marketingu? W szczególności [zajmiemy się] sieciami neuronowymi i silnikiem neuronowym później.”

Travisa Laniera: „Mam nadzieję, że dzisiaj poruszyłem niektóre z tych kwestii. Koncentrujemy się na przykład na ciągłej grze, więc być może dobrze wypadniesz we wszystkich testach porównawczych gier. Ludzie mają na tym punkcie obsesję. Ale tak naprawdę liczy się to, czy jeśli grasz w swoją grę, liczba klatek na sekundę utrzymuje się na stałym, najwyższym poziomie w przypadku takich rzeczy? Myślę, że ludzie przywiązują zbyt dużą wagę do liczby w przypadku jednego z tych bloków. To takie trudne i rozumiem tę chęć, aby dać mi jedną liczbę, która powie mi, co jest najlepsze. Jest to po prostu tak wygodne, szczególnie teraz w przypadku sztucznej inteligencji, że to po prostu szaleństwo. Nawet w przypadku testów porównawczych procesora, co mierzy test porównawczy procesora? Wszyscy mierzą różne rzeczy. Weź którykolwiek z testów porównawczych, na przykład GeekBench ma kilka podzespołów. Czy widzisz, żeby ktoś kiedykolwiek rozdzierał głowę i sprawdzał, który z tych elementów jest najbardziej odpowiedni do tego, co faktycznie robię?”

Mario Serrafero: – Czasami tak.

Travisa Laniera: „Być może wy tak. Jesteście jak ktoś odstający. Ale może jeden procesor jest lepszy w tym, a może jeden jest lepszy w innym. To samo dotyczy SPEC, ludzie będą podkreślać ten jeden SPEC, cóż, jest w nim wiele różnych obciążeń. Są to dość rygorystyczne kwestie, ale czy nawet SPEC, którego faktycznie używamy do opracowywania procesorów, jeśli spojrzysz na rzeczywiste obciążenia, czy są one rzeczywiście istotne? Świetnie nadaje się do porównywania obciążeń stacji roboczych, ale czy naprawdę wykonuję modelowanie molekularne na moim telefonie? Nie. Powtarzam jednak, że większość z tych testów porównawczych jest w jakiś sposób użyteczna, ale trzeba zrozumieć kontekst tego, do czego służą i jak je osiągnąć. Dlatego naprawdę trudno jest sprowadzić wszystko do jednej liczby.

Widzę to szczególnie – trochę tu skręcam – ale teraz widzę to w przypadku sztucznej inteligencji, to jest szalone. Widzę, że jest kilka różnych rzeczy, które nie mają jednego numeru dla AI. I tyle, ile mówiłem o procesorze, a masz wszystkie te różne obciążenia i próbujesz uzyskać jedną liczbę. Święty moly, AI. Istnieje tak wiele różnych sieci neuronowych i tak wiele różnych obciążeń. Czy uruchamiasz go w trybie zmiennoprzecinkowym, czy uruchamiasz go w trybie int, uruchamiając go z precyzją 8 lub 16 bitów? I tak się stało, że ludzie próbują tworzyć takie rzeczy, więc wybraliśmy takie obciążenie pracą i zrobiliśmy to w zmiennoprzecinkowy i przypiszemy 50% naszych testów w tej jednej sieci oraz dwóch innych testach i przypiszemy je do Ten. OK, czy ktoś w ogóle używa tego konkretnego obciążenia w tej sieci? Jakieś realne zastosowania? Sztuczna inteligencja jest fascynująca, ponieważ porusza się tak szybko. Wszystko, co ci powiem, za miesiąc lub dwa będzie prawdopodobnie błędne. I to właśnie jest w tym fajne, bo tak bardzo się zmienia.

Ale najważniejszą rzeczą nie jest sprzęt w sztucznej inteligencji, ale oprogramowanie. Ponieważ wszyscy z niego korzystają, tak jak ja używam tej sieci neuronowej. Zasadniczo są tam wszystkie te mnożniki. Czy zoptymalizowałeś tę konkretną sieć neuronową? Czy zoptymalizowałeś ten pod kątem testu porównawczego, czy też zoptymalizowałeś ten, aby niektórzy ludzie powiedzieli: ty wiem, co stworzyłem punkt odniesienia, który mierzy super rozdzielczość, jest to punkt odniesienia dla super rozdzielczości sztuczna inteligencja Cóż, używają tej sieci i mogli to zrobić w formacie zmiennoprzecinkowym. Jednak każdemu partnerowi, z którym współpracujemy, udało nam się to zrobić w wersji 16-bitowej i/lub 8-bitowej i przy użyciu innej sieci. Czy to oznacza, że ​​nie jesteśmy dobrzy w super rozdzielczości, bo ta praca do niej nie pasuje? Dlatego chcę tylko powiedzieć, że testy porównawcze AI są naprawdę skomplikowane. Myślisz, że procesor i karta graficzna są skomplikowane? AI jest po prostu szalona.”

Mario Serrafero: „Tak, istnieje zbyt wiele typów sieci, zbyt wiele parametryzacji – różna parametryzacja prowadzi do różnych skutków, w jaki sposób jest obliczana”.

Travisa Laniera: „To będzie zajęcie dla recenzentów”.

Mario Serrafero: „Ale jeśli chcesz zmierzyć cały wachlarz rzeczy, cóż, jest to o wiele trudniejsze. Ale tak, nikt tego nie robi.”

Miszaala Rahmana: „Dlatego skupiacie się bardziej na przypadkach użycia”.

Travisa Laniera: „Myślę, że ostatecznie, gdy pokażesz przypadki użycia, Twoja sztuczna inteligencja jest obecnie tak dobra. Wszystko sprowadza się do oprogramowania, myślę, że za kilka lat dojrzeje nieco. Ale w tej chwili trzeba wykonać mnóstwo pracy z oprogramowaniem, a potem wprowadzić zmiany typu: OK, cóż, w tej sieci jest gorąco, a potem na przykład w przyszłym roku: „O nie, znaleźliśmy nową sieć, która jest bardziej wydajna pod każdym względem”, więc trzeba będzie powtórzyć oprogramowanie. To całkiem szalone.”

Mario Serrafero: „Mówiąc o NN, w pewnym sensie dokonałeś przejścia za mnie, mniej niezręcznego myślenia o przejściu. Przejdźmy do sześciokąta. To jeden z elementów najmniej rozumiany, powiedziałbym, przez konsumentów, a nawet większość entuzjastów, a na pewno moich kolegów. Wiesz, zwłaszcza biorąc pod uwagę, że nie został on wprowadzony jako blok AI i podobnie jak cały pomysł cyfrowego przetwarzania sygnału, wiesz, kiedy coś wprowadzasz ten oryginalny pomysł w pewnym sensie się zapada w pamięć, więc jeśli coś robisz, ok, to sprawa neuronowa z neuronalną, neuronalną, neuronalną inteligencją mózgu, to w pewnym sensie się trzyma ludzie. Mają etykiety neuronowe, neuronowe i neuronowe do uczenia maszynowego AI dla innych rozwiązań. Więc może chcemy dać ci szansę wyjaśnienia ewolucji Hexagon DSP i dlaczego od tego nie odszedłeś nazwy brzmiące inżyniersko, takie jak Hexagon DSP, rozszerzenia wektorów i tak dalej, które nie przypominają marketingu przyjazny. Ale tak, może po prostu krótki przegląd tego, jak to było dla ciebie, stojącego na czele DSP, od początków przetwarzania obrazu do zupełnie nowego akceleratora tensorowego.

Travisa Laniera: „To właściwie interesująca kwestia, ponieważ niektórzy z naszych konkurentów faktycznie mają coś, co nazywają silnikiem neuronowym lub akceleratorem neuronowym — w rzeczywistości jest to procesor DSP, to to samo. Więc myślę, że nazwa jest ważna, ale poruszyłeś ważny punkt i szczerze mówiąc, kiedy to publikowaliśmy, było to przeznaczone do obrazowania, po prostu wspieraliśmy 8-bitowy. Pamiętam, że występowaliśmy w Hot Chips, a Pete Warden z Google w pewnym sensie nas wyśledził i powiedział: „Hej, wy… więc wspieracie technologię 8-bitową, co?” Tak, robimy to. Od tego momentu natychmiast wyszliśmy i stwierdziliśmy: hej, mamy wszystkie te projekty w toku. To wtedy poszliśmy i przenieśliśmy TensorFlow do Hexagon, ponieważ to było tak, hej, mamy do tego taki 8-bitowy procesor wektorowy obsługiwany i to było na naszym Hexagon DSP. Gdybym miał omówić wszystko od nowa, prawdopodobnie nazwałbym go procesorem sygnału neuronowego Hexagon. Nadal mamy inny procesor DSP, mamy skalarny procesor DSP i jest to procesor DSP w najprawdziwszym tego słowa znaczeniu. Następnie nazywamy ten rodzaj wektorowego DSP. Może powinniśmy zmienić jego nazwę, może powinniśmy nazwać go procesorem sygnału neuronowego, ponieważ prawdopodobnie nie przypisujemy sobie tyle uznania, ile powinienem, ponieważ, jak powiedziałem, niektórzy ludzie mają po prostu wektorowe procesory DSP i nazywają to jakkolwiek, ale niczego nie ujawnili to jest. Czy odpowiedziałem na Twoje pytanie?”

Przegląd Hexagonu 690. Źródło: Qualcomm.

Mario Serrafero: – Więc tak, to prawdopodobnie większość.

Travisa Laniera: „Jakie było drugie pytanie?”

Mario Serrafero: „Tak właśnie widziałeś ten rozwój wewnętrznie. Jak to było: doświadczenia, trudności, wyzwania, o czymkolwiek chcesz nam opowiedzieć? Jak [czy] widziałeś ewolucję od początków przetwarzania obrazu do akceleratora tensorowego?”

Travisa Laniera: „To było trochę frustrujące, ponieważ wzdrygnąłem się, gdy prasa podniosła rękę i powiedziała: „Qualcomm, jakie masz zaległości! Dlaczego nie... Kiedy dostaniesz dedykowany procesor sygnału neuronowego? i chcę po prostu lubić bić się w głowę. Poczułem się, jakbyśmy byli pierwszymi, którzy mieli procesor wektorowy! Ale to powiedziawszy, będziemy to edytować i prawdopodobnie będzie więcej rzeczy, gdy dowiemy się więcej o sztucznej inteligencji. Więc dodaliśmy jeszcze tę rzecz i tak, ta jest — obsługuje tylko sztuczną inteligencję, nie przetwarza obrazu w ramach kompleksu sześciokątnego, więc oferujecie… ponieważ nadal nazywamy to Hexagon DSP, nazywamy cały kompleks procesorem Hexagon, aby spróbować uzyskać przechwyconą nazwę dla całego sześciokąta Teraz. Dodaliśmy rzeczy, które w rzeczywistości obliczają się bardziej bezpośrednio, nie powinienem mówić, że obliczają bezpośrednio, podoba mi się to ma automatyczne zarządzanie sposobem wykonywania mapy wyższego rzędu miejsc, w których się mnoży matryce.”

Mario Serrafero: „Właściwie tensory są dla mnie dość trudne do ogarnięcia. To tak, jakby oni też w pewnym sensie owijali się wokół siebie.

Travisa Laniera: „Tak, pomyślałem, chodziłem na zajęcia z algebry liniowej na studiach. Zrobiłem to jak człowiek: „Mam nadzieję, że nigdy więcej nie będę musiał tego robić!” I wrócili z zemstą. Chyba pomyślałem: „O rany, równania różniczkowe i algebra liniowa wróciły ze zdwojoną siłą!”

Mario Serrafero: "Mam wrażenie, że wielu moich kolegów tego nie zauważyło. Nadal uważają, że NPU ma tajemniczy aspekt, gdy jest to po prostu zbiór mnożenia macierzy, iloczynów skalarnych, funkcji nieliniowych, splotów [i] tak dalej. I nie sądzę, że osobiście taka nazwa silnika przetwarzania neuronowego pomaga, ale o to właśnie chodzi, prawda? Ile z tego albo nie zostało rozszerzonych, zaciemnionych, albo w pewnym sensie leżąca u podstaw matematyki przerzucona przez konwencje nazewnictwa i co być może można zrobić? Nie wiem, czy o tym myślałeś. [Co] można zrobić, aby poinformować ludzi o tym, jak to działa? Jak to nie jest po prostu, dlaczego na przykład DSP może robić to samo, co inne nowe silniki przetwarzania neuronowego? To znaczy, to tylko matematyka, ale nie wydaje się, aby użytkownicy, czytelnicy, niektórzy dziennikarze to rozumieli. Co można – nie twierdzę, że jest to odpowiedzialność Qualcomma – ale jak myślisz, co można zrobić inaczej? To prawdopodobnie moja odpowiedzialność.”

Travisa Laniera: „Szczerze mówiąc, zaczynam się poddawać. Może powinniśmy po prostu nazwać rzeczy „neuronalnymi”. Właśnie rozmawialiśmy o tym, jak od algebry liniowej i równań różniczkowych kręciło nam się w głowie, kiedy zaczęliśmy na nie patrzeć rzeczy, więc kiedy zaczynasz próbować to wyjaśniać ludziom, tak jak wtedy, gdy zaczynasz przeprowadzać analizę regresji, patrzysz na równania i tak dalej, ludzkie głowy eksplodować. Możesz nauczyć większość ludzi podstawowego programowania, ale kiedy zaczniesz uczyć ich, jak działają równania propagacji wstecznej, spojrzą na to i ich głowy eksplodują. Więc tak, zabawne rzeczy. Nie chcą widzieć pochodnych cząstkowych…”

Mario Serrafero: „Łańcuchy pochodnych cząstkowych, nie skalarnych, ale wektorowych, obejmujących funkcje nieliniowe”.

Travisa Laniera: "Powodzenia z tym! Tak, więc to trudne i nie wiem, czy większość ludzi chce o tym wiedzieć. Ale próbuję: dodaję coś w stylu: „Hej, my tu tylko zajmujemy się matematyką wektorową. Mamy procesor wektorowy. Myślę, że ludzie, patrząc na to, mówią: „No dobrze, ale ja naprawdę chcę neuron akcelerator." „Tensor” to nadal pojęcie matematyczne, ale myślę, że ludziom może się to bardziej kojarzyć ze sztuczną inteligencją przetwarzanie."

Mario Serrafero: „To mogłoby przypominać wypełnienie luki, luki semantycznej”.

Travisa Laniera: „Myślę, że ostatecznie wszystko sprowadza się do tego, że prawdopodobnie będziemy musieli wymyślić inną nazwę”.


Wszystkie grafiki w tym artykule pochodzą z prezentacji Travisa Laniera podczas Snapdragon Tech Summit. Można przeglądać slajdy prezentacji Tutaj.