Apple розробила ШІ, який розуміє людину краще за GPT-4

    346

    Науковці Apple розробили систему штучного інтелекту ReALM (Reference Resolution as Language Modeling), здатну суттєво покращити розуміння людини голосовими помічниками та підвищити ефективність їхньої реакції на запити.

    У Apple описали систему як спосіб вирішити проблему роздільної здатності посилань великими мовними моделями – вона допоможе ШІ інтерпретувати опис користувачем об’єктів на екрані та краще розуміти контекст розмови. В результаті ReALM призведе до більш інтуїтивної та природної взаємодії з пристроями.

    Роздільна здатність посилань допомагає системам краще розуміти природне мовлення, дозволяючи користувачам у розмові з ШІ користуватися займенниками та іншими опосередкованими посиланнями. Для голосових помічників цей аспект взаємодії з людиною традиційно представляв значну проблему, і система ReALM зводить її до завдання, яке вирішується на рівні мовної моделі. ШІ починає адекватно сприймати посилання до візуальних елементів на екрані та інтегрує ці поняття в потік розмови.

    ReALM відновлює візуальний макет екрану за допомогою текстових уявлень. Цей процес включає аналіз екранних об’єктів і їх місцезнаходження з його перекладом в текстовий формат, що відображає вміст і структуру елементів на екрані. Дослідники Apple виявили, що цей спосіб у поєднанні з тонким налаштуванням мовних моделей значно перевершує традиційні методи, включаючи можливості нейромережі OpenAI GPT-4.

    ReALM допоможе користувачам просто описувати елементи екрану, а ШІ-помічникам – розуміти такі описи. Ці можливості виявляться корисними, наприклад, при керуванні інформаційно-розважальними системами автомобілів за допомогою голосових команд та підвищать ефективність голосового інтерфейсу для людей з обмеженими можливостями.