Google створила роботів, які виконують складні голосові команди — приносять газовану воду та витирають калюжі

    64

    Ті, хто використовує інтелектуальних голосових помічників, таких як «Аліса», Siri і т.д., ймовірно, помітили, що технологія стає розумнішою з кожним днем. Проте роботів, які виконували різні команди, озвучені користувачем, поки знайти складно. Роботи-пилососи не рахуються. Однак Google створила повноцінних роботів, які вміють розпізнавати голосові команди та правильно їх виконувати.

    Навчити робота виконувати завдання, що повторюються, в контрольованих просторах без присутності людей хоч і не найпростіше, але цілком вирішуване завдання. Набагато складніше навчити робота вирішувати різноманітні завдання на основі голосових команд у просторах, де також присутні люди. Не йдеться про такі рішення, як роботи-пилососи, які просто запрограмовані на те, щоб не торкатися жодних предметів, крім підлоги. З роботами-помічниками все куди складніше, адже він повинен правильно зрозуміти людину, а також придумати, як виконати доручення або збагнути, що зробити цього він не може в принципі.

    Google досягла певного прогресу в задачі розуміння роботами природної мови, яку може використовувати людина. За допомогою своєї системи обробки природної мови Pathways Language Model (PaLM) компанія спромоглася досягти точної обробки фраз і розуміння роботом того, що людина насправді хоче, а не буквального виконання сказаного.

    Наступне завдання зрозуміти, на що насправді здатний робот. Робот може зрозуміти прохання дістати предмет з полиці, але проблема в тому, що він може не дотягнутися до нього, тому що полиця знаходиться надто високо. Google називає “можливостями” те, що може робити робот більш-менш успішно. Це можуть бути прості завдання («просуньтеся на метр вперед»), складніші завдання («знайди банку коли на кухні»), а також складні, багатоетапні дії, що вимагають від робота розуміння власних здібностей та навколишнього світу. Наприклад, «Уф, я пролив свою колу на підлогу. Чи могли б ви витерти калюжу і принести мені новий напій?». В останньому випадку роботу буде необхідно розбити завдання на ряд етапів – визначити місце, де пролита рідина, піти на кухню, знайти губку, повернутися назад, зібрати воду, знову піти на кухню, щоб вичавити губку і т.д. Хоча, можливо, йому потрібно визначитися — може краще спочатку принести банку коли, а потім зайнятися усуненням калюжі?

    Ще одна проблема, з якою стикається робототехніка, полягає в тому, що мовні моделі не прив’язані до фізичного світу. Наприклад, на запит «Я пролив свій напій, ви можете допомогти?» Мова GPT-3 відповідає: «Ви можете спробувати використати пилосос». І це має сенс для неї, оскільки мовна модель асоціює пилосос із процесом збирання. Хоча пилосос не призначений для усунення калюжі, і спроба зробити це може призвести до його поломки.

    Як стверджують у Google, важливо навчити роботів визначати, що вони можуть і чого не можуть робити, і що має сенс робити насамперед у різних ситуаціях. Поки що роботи Google навчилися приносити різні речі, на зразок газованої води, а також витирати калюжі, попутно навчившись шукати ті чи інші речі, відкривати ящики та інше. Але роблять вони все правильно в 74% випадків, і Google працює над тим, щоб підвищити цей показник. Крім виконання різних доручень, вони також були навчені самостійно підключатися до електромережі для підзарядки.

    Лабораторія робототехніки Google використовує кілька роботів від підрозділу Everyday Robots. Деякі з них використовуються на кухні та навчаються покращувати різні аспекти роботи на кухні. Роботи, отримавши завдання, намагаються прийняти рішення, задаючись питаннями «яка ймовірність того, що я досягну успіху в тому, що збираюся спробувати?» і «наскільки корисною може бути ця річ». Десь у проміжку між цими двома міркуваннями роботи стають значно розумнішими з кожним днем.

    Джерело: techcrunch.com



    • інші новини