ИИ помогает бытовым роботам вдвое сократить время планирования
ДомДом > Новости > ИИ помогает бытовым роботам вдвое сократить время планирования

ИИ помогает бытовым роботам вдвое сократить время планирования

Jul 21, 2023

Предыдущее изображение Следующее изображение

Вам домой доставляют новенького домашнего робота, и вы просите его приготовить вам чашку кофе. Несмотря на то, что он знает некоторые базовые навыки из предыдущей практики на моделируемой кухне, он может предпринять слишком много действий — включить кран, спустить воду в туалете, опорожнить контейнер для муки и так далее. Но есть небольшое количество действий, которые могут быть полезны. Как роботу понять, какие шаги разумны в новой ситуации?

Он мог бы использовать PIGINet, новую систему, целью которой является эффективное расширение возможностей домашних роботов по решению проблем. Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) используют машинное обучение, чтобы сократить типичный итеративный процесс планирования задач, который учитывает все возможные действия. PIGINet исключает планы задач, которые не могут удовлетворить требования отсутствия коллизий, и сокращает время планирования на 50–80 процентов при обучении только на 300–500 задачах.

Обычно роботы пробуют различные планы задач и итеративно совершенствуют свои действия, пока не находят осуществимое решение, что может быть неэффективным и отнимать много времени, особенно при наличии подвижных и шарнирно-сочлененных препятствий. Может быть, например, после приготовления вы захотите убрать в шкаф все соусы. Решение этой проблемы может занять от двух до восьми шагов в зависимости от того, как выглядит мир в данный момент. Нужно ли роботу открывать несколько дверей шкафа или внутри шкафа есть какие-либо препятствия, которые нужно переместить, чтобы освободить место? Вы же не хотите, чтобы ваш робот работал раздражающе медленно — и будет еще хуже, если он сгорит ужин, пока думает.

Обычно считается, что домашние роботы следуют заранее заданным рецептам выполнения задач, что не всегда подходит для разнообразных или меняющихся сред. Итак, как же PIGINet позволяет избежать этих предопределенных правил? PIGINet — это нейронная сеть, которая учитывает «планы, изображения, цели и исходные факты», а затем прогнозирует вероятность того, что план задачи может быть уточнен для поиска осуществимых планов движения. Проще говоря, он использует преобразователь-кодер, универсальную и современную модель, предназначенную для работы с последовательностями данных. Входной последовательностью в данном случае является информация о том, какой план задачи рассматривается, образы окружающей среды и символические кодировки исходного состояния и желаемой цели. Кодер объединяет планы задач, изображение и текст для создания прогноза относительно осуществимости выбранного плана задач.

Храня вещи на кухне, команда создала сотни смоделированных сред, каждая из которых имеет разную планировку и конкретные задачи, требующие перестановки предметов между прилавками, холодильниками, шкафами, раковинами и кастрюлями. Измеряя время, необходимое для решения проблем, они сравнили PIGINet с предыдущими подходами. Один правильный план действий может включать в себя открытие левой дверцы холодильника, снятие крышки кастрюли, перемещение капусты из кастрюли в холодильник, перемещение картофеля в холодильник, взятие бутылки из раковины, постановку бутылки в раковину, взятие помидор или размещение помидора. PIGINet значительно сократил время планирования на 80 процентов в более простых сценариях и на 20–50 процентов в более сложных сценариях, которые имеют более длинные последовательности планирования и меньше обучающих данных.

«Такие системы, как PIGINet, которые используют возможности методов, основанных на данных, для эффективного решения знакомых случаев, но при этом могут прибегать к методам планирования «основных принципов» для проверки предложений, основанных на обучении, и решения новых проблем, предлагают лучшее из обоих. миров, обеспечивая надежные и эффективные решения общего назначения для широкого спектра проблем», — говорит профессор Массачусетского технологического института и главный исследователь CSAIL Лесли Пэк Кельблинг. Использование в PIGINet мультимодальных вложений во входной последовательности позволило лучше представить и понять сложные геометрические отношения. Использование данных изображения помогло модели понять пространственное расположение и конфигурации объектов, не зная трехмерных сеток объектов, для точной проверки столкновений, что позволяет быстро принимать решения в различных средах.