Google, robotlarla konuşmaya yönelik bir yapay zeka modeli olan RT-2'yi duyurdu

Google, açık bir eğitim gerektirmeden komutlarınızı robotik eylemlere dönüştürebilen yeni bir yapay zeka modeli olan RT-2'yi tanıttı.

Her ne kadar büyük dil modelleri (LLM'ler) tarafından desteklenen AI sohbet robotları, popülaritesindeki hızlı artış nedeniyle bugünlerde manşetlere hakim olsa da SohbetGPT, Bing Sohbeti, Meta'nın Laması, Ve Google OzanıBu, yapay zeka ortamının yalnızca küçük bir kısmıdır. Yıllardır aktif olarak araştırılan bir diğer alan ise insanların yerini almak veya onlara yardımcı olmak için karmaşık tekniklerden yararlanan robotik donanımlardır. Google şimdi bu alanda yeni bir yapay zeka modeli biçiminde bir ilerleme duyurdu.

Google'ın var açıklanmış Robotics Transformer 2 (RT-2), çok özel bir amaca sahip en son yapay zeka modeli: istediğiniz eylemi bir robota iletmek. Bu amaca ulaşmak için Google'ın türünün ilk örneği olduğunu iddia ettiği benzersiz bir görsel dil eylemi (VLA) tarafından desteklenen yeni teknikler kullanıyor. Her ne kadar RT-1 ve PaLM-E gibi daha önceki birkaç model, robotların muhakeme yeteneklerini artırma ve öğrenmelerini sağlama konusunda ilerlemeler kaydetmiş olsa da Bilimkurgu filmlerinin sergilediği robotların hakim olduğu dünya, birbirlerinden bakıldığında hâlâ son derece uzak bir gelecekten gelen bir şey gibi görünüyor.

RT-2, robotların çevrelerindeki dünyayı çok az destekle veya hiç destek olmadan tam olarak anlamalarını sağlayarak kurgu ile gerçeklik arasındaki bu uçurumu azaltmayı amaçlıyor. Prensip olarak, dünya hakkında metinsel ve görsel bilgilerden bilgi edinmek için Transformer tabanlı bir model kullanan Yüksek Lisans'lara çok benzer. Web'de mevcut olan bilgileri toplayın ve daha sonra açıkça belirtilmediği test senaryolarında bile bunları robotik eylemlere çevirin. eğitimli.

Google, RT-2'nin yeteneklerini açıklamak için çeşitli kullanım örneklerini açıkladı. Örneğin, RT-2 ile çalışan bir robottan çöp kutusuna çöp atmasını isterseniz, çöpün ne olduğunu, onu diğer nesnelerden nasıl ayırt edeceğini kolaylıkla anlayabilir. ortamda mevcut olup olmadığı, mekanik olarak nasıl hareket ettirileceği ve alınacağı ve çöp kutusuna nasıl atılacağı, bunların herhangi biri hakkında özel olarak eğitilmeden aktiviteler.

Google ayrıca RT-2 testinden elde edilen oldukça etkileyici sonuçları da paylaştı. 6.000'den fazla denemede RT-2'nin "görülen" görevlerde selefi kadar usta olduğu kanıtlandı. Daha da ilginci, görülmeyen senaryolarda, RT-1'in %32'sine kıyasla %62 puan aldı; bu, performansta neredeyse iki kat artış anlamına geliyordu. Böyle bir teknolojinin uygulamaları halihazırda çok somut görünse de, bunun için ciddi bir zaman gerekiyor. Gerçek dünyadaki kullanım durumlarının olgunlaşması anlaşılır bir şekilde sıkı testler ve hatta düzenleyici onaylar gerektirir. zamanlar. Şimdilik RT-2'nin arka uç mekanizması hakkında daha fazla bilgiyi şurada bulabilirsiniz: Google DeepMind'ın blogu burada.