Google představil RT-2, nový model umělé inteligence, který dokáže převést vaše příkazy do robotických akcí bez nutnosti výslovného školení.
Ačkoli AI chatboti pohánění velkými jazykovými modely (LLM) dnes dominují titulkům kvůli raketovému nárůstu popularity ChatGPT, Bing Chat, Metaova láma, a Google Bard, to je jen malá část prostředí AI. Další oblastí, která byla léta aktivně zkoumána, je robotický hardware využívající složité techniky k nahrazení nebo pomoci lidem. Google nyní oznámil pokrok v této doméně, a to v podobě nového modelu AI.
Google má odhaleno Robotics Transformer 2 (RT-2), jeho nejnovější model umělé inteligence s velmi specifickým účelem: sdělit robotovi požadovanou akci. K dosažení tohoto cíle využívá nové techniky, které jsou poháněny unikátní vizuální-jazykovou akcí (VLA), o které Google tvrdí, že je první svého druhu. Ačkoli několik předchozích modelů jako RT-1 a PaLM-E učinilo pokrok ve zvyšování rozumových schopností u robotů a zajistilo, že se naučí jeden od druhého se svět ovládaný roboty předváděný sci-fi filmy pravděpodobně stále jeví jako něco z extrémně vzdálené budoucnosti.
Cílem RT-2 je snížit tuto propast mezi fikcí a realitou tím, že zajistí, aby roboti plně rozuměli světu kolem sebe s minimální nebo žádnou podporou. V principu je to velmi podobné LLM, kde využívá model založený na Transformeru k poznávání světa z textových a vizuálních informace dostupné na webu a následně je převést do robotických akcí, a to i v testovacích případech, kde to tak výslovně nebylo vyškolený.
Google vysvětlil několik případů použití, aby vysvětlil možnosti RT-2. Pokud například požádáte robota s pohonem RT-2, aby hodil odpadky do koše, snadno by pochopil, co je to odpad a jak je odlišit od jiných předmětů. přítomné v prostředí, jak jej mechanicky přemisťovat a sbírat a jak je likvidovat v koši, a to vše, aniž byste byli speciálně vyškoleni na některou z těchto činností. činnosti.
Google také sdílel některé poměrně působivé výsledky ze svého testování RT-2. Ve více než 6 000 pokusech se RT-2 ukázal být stejně zdatný jako jeho předchůdce v „viditelných“ úkolech. Ještě zajímavější je, že v neviditelných scénářích dosáhl 62 % ve srovnání s 32 % RT-1, což je téměř dvojnásobný nárůst výkonu. I když se aplikace takové technologie již zdají velmi hmatatelné, zabere to značný čas aby dozrály jako případy použití v reálném světě pochopitelně vyžadují přísné testování a dokonce schválení regulačními orgány časy. Prozatím si můžete přečíst více o backendovém mechanismu RT-2 v Blog Google DeepMind zde.