Закрыть [x]

Перейти на мобильную версию

Эмоциональный ИИ: кто и зачем распознает эмоции в России и за рубежом

05.12.2019

Искусственный интеллект активно развивается в России и мире – в том числе эмоциональный. Им интересуются крупные компании и амбициозные стартапы, которые внедряют новые разработки в ритейл, маркетинг, образование, банковскую сферу, рекрутинг. По данным Mordor Intelligence, рынок распознавания эмоций оценивался в 12 млрд долларов в 2018 году и вырастет до 92 млрд долларов к 2024 году.

Rusbase разобрался, чем полезен эмоциональный ИИ для бизнеса.

Что такое эмоциональный ИИ

Эмоциональный искусственный интеллект (Emotion AI) – это ИИ, который позволяет компьютеру распознавать и интерпретировать человеческие эмоции и реагировать на них. Камера, микрофон или нательный датчик считывают состояние человека, а нейросеть обрабатывает данные, чтобы определить эмоцию.

Есть два основных способа анализа эмоций:

1. Контактный. На человека надевают прибор, который считывает его пульс, электрические импульсы тела и другие физиологические показатели. Такие технологии позволяют определить не только эмоции, но и уровень стресса или вероятность эпилептического припадка.

2. Бесконтактный. Эмоции анализируют на основе видео- и аудиозаписей. Компьютер изучает мимику, жесты, движение глаз, голос и речь.

Чтобы обучить нейросеть, дата сайентисты собирают выборку данных и вручную размечают изменение эмоционального состояния человека. Программа изучает шаблоны и понимает, какие признаки к какой эмоции относятся.

Нейросеть может обучаться на разных данных. Одни компании и лаборатории используют видеозаписи, другие изучают голос, а некоторые извлекают пользу сразу из нескольких источников. Но чем разнообразнее данные, тем точнее результат.

Рассмотрим два основных источника:

  • Фото и стоп-кадры из видео.

Сначала изображения обрабатываются, чтобы ИИ было удобнее с ними работать. Черты лица – брови, глаза, губы и так далее – размечаются точками. Нейросеть определяет положение точек, сопоставляет их с признаками эмоций из шаблона и делает вывод о том, какая эмоция отражена – злость, страх, удивление, грусть, радость или спокойствие.

Есть и другой подход. На лице сразу отмечают маркеры эмоций – например, улыбку или нахмуренные брови. Тогда нейросеть ищет маркеры на изображении, анализирует их комбинации и определяет состояние человека.

«Для обучения используется набор заранее размеченных изображений лиц, каждому из которых поставлена в соответствие изображенная на нем эмоция. В процессе обучения нейронная сеть самостоятельно выясняет, что определяет эмоцию человека, в результате получается готовый алгоритм. Также существуют подходы, при которых на лице изначально определяются Action Unit’ы (опущенные брови, приподнятый подбородок, сморщенный нос и т.д.), а дальше по их комбинации определяется конечная эмоция», – Даниил Киреев, ведущий исследователь компании-разработчика продуктов по распознаванию лиц VisionLabs.

Изучение маркеров эмоций началось еще в XX веке. Правда, тогда их рассматривали отдельно от нейросетей. Ученые Пол Экман и Уоллес Фризен разработали систему кодирования лицевых движений (Facial Action Coding System или FACS) в 1978 году. Она разбивает выражение лица на отдельные мышечные движения, или двигательные единицы (Action Units). Исследователь изучает двигательные единицы и сопоставляет их с эмоцией.

  • Голос и речь.

Нейросеть выделяет из акустического сигнала множество параметров голоса – например, тон и ритмичность. Она изучает их изменение во времени и определяет состояние говорящего.

Иногда для обучения используют спектрограмму – изображение, которое показывает мощность и частоту сигнала во времени. Кроме того, для более точного результата ИИ анализирует лексику.

«Умение обращать внимание на чувства и эмоции другого человека называется эмпатией. Чем точнее вам удается интерпретировать эмоции, намерения и мотивацию, тем выше уровень вашего эмоционального интеллекта. Теперь представьте, если ваш плейлист будет формироваться на основании эмоций, распознанных при разблокировке Face ID. А Siri позволит выговориться ей после тяжелого дня и даст пару советов, а потом порекомендует фильм, чтобы отвлечься», – Олег Кивокурцев, сооснователь Promobot.

Где используется технология

Продажи и реклама

Самая очевидная сфера применения технологий распознавания эмоций – маркетинг. С их помощью можно определить, как рекламный ролик действует на человека. Для этого можно, например, установить конструкцию с камерой, которая будет менять рекламу в зависимости от настроения, пола и возраста проходящих мимо людей.

«Анализ видеопотока позволяет узнать количество уникальных посетителей на торговую точку, их социодемографический профиль, подсчитать индекс удовлетворенности каждого клиента и общую статистику, а также сравнить ее с другими магазинами, филиалами и целыми сетями продаж. Это своеобразная гугл-аналитика, только для офлайна. Такие же системы устанавливают и в сетевых отелях», – Георгий Плиев, основатель и управляющий партнер Neurodata Lab.

Подобную конструкцию разработали стартапы Cloverleaf и Affectiva. Они представили электронные ценники с рекламой под названием shelfPoint, которые собирают данные об эмоциях покупателей. Новые технологии опробовали Procter & Gamble, Walmart и другие крупные компании. Как утверждает Cloverleaf, продажи поднялись на 10-40%, а вовлеченность покупателей возросла в 3-5 раз.

Более необычный вариант – робот-консультант с искусственным интеллектом. Он будет взаимодействовать с клиентами, считывать их эмоции и влиять на них. А еще делать персонализированные предложения.

Сервисного робота представил российский стартап Promobot. В нем используется нейросеть, разработанная Neurodata Lab, которая определяет эмоции сразу по нескольким источникам: записи лица, голоса, движений, а также по частоте дыхания и пульса.

Promobot активно продает своих роботов за границу. В 2018 году стартап заключил контракт с американской компанией Intellitronix на 56,7 млн долларов, а в следующем договорился о поставке устройств в Саудовскую Аравию, Израиль, Кувейт и Швецию – за них компания получит 1,1 млн долларов. По данным Promobot, сегодня 492 робота работают в 34 странах мира в роли гидов, консьержей, консультантов и промоутеров.

«Эмоциональный ИИ позволит роботу корректировать стратегию коммуникации, исходя из эмоционального состояния собеседника – ободрить, подшутить, успокоить, как следствие, завоевать большее доверие», – Олег Кивокурцев, сооснователь Promobot.

Банки

Технологии распознавания эмоций помогают банкам получать обратную связь от клиентов без опросов и улучшать обслуживание. В отделениях устанавливают видеокамеры, и алгоритмы по записи определяют удовлетворенность посетителей. Нейросети также могут проанализировать голос и речь клиента и оператора во время звонка в контакт-центр.

В России эмоциональный ИИ пробуют внедрить уже давно: его тестировали в Сбербанке еще в 2015 году, а через три года «Альфа-Банк» запустил свой пилот анализа эмоций по видео. Кроме записей с камер наблюдения используют и записи звонков. ВТБ начал пилотный проект по внедрению эмоционального ИИ в 2019 году. А «Росбанк» вместе с Neurodata Lab уже протестировали определение эмоций клиентов по голосу и речи. Клиент звонил в банк, а нейросеть анализировала его состояние и смысл разговора. Кроме того, ИИ замечал паузы в речи оператора, громкость голоса и время общения. Это позволяло не только проверять удовлетворенность сервисом, но и контролировать работу операторов контакт-центра.

Сейчас «Росбанк» внедрил собственное решение для распознавания эмоций. Вместо акустического сигнала система анализирует текст, при этом точность остается высокой.

«В “Росбанке” проводился пилот технологии по распознаванию эмоций в контакт-центре: технология тестировалась на чатах и звонках. Изначально рассматривалось решение вендора, которое помогает учитывать акустические характеристики, но на текущий момент остановились на разработке внутреннего решения: алгоритм автоматически на основе текста определяет эмоцию с точностью до 90%», – Дмитрий Смирнов, руководитель «Лаборатории данных» «Росбанка».

Распознаванием эмоций в речи занимается и «Центр речевых технологий» (контрольный пакет акций принадлежит Сбербанку). Сервис Smart Logger анализирует голос и лексику клиентов и операторов, время разговора и паузы, чтобы выяснить удовлетворенность обслуживанием.

«При обращении в контакт-центр вы не хотели бы, чтобы оператор выражал свои эмоции, особенно негативные, накопленные после разговора с предыдущими недовольными клиентами. Наша система речевой аналитики контролирует появление таких ситуаций, что позволяет повысить качество обслуживания», – Кирилл Левин, директор научно-исследовательского департамента «ЦРТ».

Сфера развлечений

Системы распознавания эмоций можно использовать, чтобы узнать реакцию аудитории на фильм. Компания Disney в 2017 году в сотрудничестве с учеными провела эксперимент: установила камеры в кинотеатре и подключила алгоритмы глубокого обучения для оценки эмоций зрителей. Система могла предсказать реакцию людей, наблюдая за ними всего несколько минут. За время эксперимента собрали внушительный датасет: 68 маркеров с каждого из 3 179 зрителей. Всего получилось 16 миллионов изображений лиц.

Для такой же цели видеохостинг YouTube создал свой ИИ под названием YouFirst. Он позволяет видеоблогерам и компаниям тестировать контент до выпуска на платформе. Пользователи нажимают на специальную ссылку, дают согласие на съемку видео и смотрят ролик. В это время нейросеть определяет их реакции и отправляет данные владельцу канала.

Среди российских компаний реакцию на видеоролики может анализировать, например, Neurobotics. Компания разработала программу EmoDetect, которая распознает радость, грусть, удивление, страх, злость, отвращение и нейтральное состояние. Программа изучает до 20 локальных признаков лица на стоп-кадрах и серии изображений. Система анализирует двигательные единицы и использует технологию кодирования лицевых движений FACS. Есть возможность записать видео с веб-камеры. Программный интерфейс API EmoDetect позволяет интегрировать продукт с внешними приложениями.

Эмоциональный ИИ начинают применять и в игровой индустрии. Он помогает персонализировать игру и добавить больше взаимодействия с геймером.

«Распознавание эмоций уже используется для создания интерактивных интерфейсов – игр следующего поколения, где сюжет может меняться в зависимости от эмоций игрока», – Георгий Плиев, основатель и управляющий партнер Neurodata Lab.

Например, американская компания Affectiva, которая занимается эмоциональным ИИ, помогла создать игру в жанре психологического триллера Nevermind. Напряженность зависит от состояния игрока: сюжет становится мрачнее, когда он испытывает стресс, и наоборот.

Образование

Распознавание эмоций применимо и в образовании. С его помощью можно изучать настроение и внимание учеников во время занятий.

«Мы ставим несколько камер в аудитории и наблюдаем, как меняются эмоции слушателей в течение лекции. По результатам можно найти зависимость уровня знаний студентов от степени их вовлеченности на занятиях. Данные можно использовать для повышения качества обучения: скорректировать учебный план, разбить лекции на смысловые блоки, ввести больше интерактивных механик и так далее. Похожий подход внедрили в старшей школе китайского города Ханчжоу», – Виталий Виноградов, менеджер по продуктам сервиса облачного видеонаблюдения и видеоаналитики Ivideon.

Российские разработчики применили эмоциональный ИИ в Перми. Толчком к развитию технологий стали нападения учеников на младшеклассников и учительницу. «Ростелеком» и стартап New Vision разработали программу «Умная и безопасная школа», чтобы отслеживать эмоциональное состояние детей. Это поможет выявлять асоциальных подростков раньше, чем случится трагедия.

В основу была положена система Пола Экмана. Нейросеть анализировала малейшие движения мышц с помощью 150 точек на лице. За урок собирался большой объем данных: по 5-6 тысяч кадров на каждого ученика. Программа изучала датасет и вычисляла эмоциональное состояние каждого ребенка. По словам создателей, точность составила 72%.

HR

Эмоциональный ИИ может быть полезен в работе с персоналом. Он помогает определить состояние сотрудника, вовремя заметить его усталость или недовольство и эффективнее перераспределить задачи.

«Мы используем собственную систему распознавания эмоций, чтобы отслеживать общий рабочий фон и корректировать систему мотиваций, загрузку сотрудников, распределение задач», – Виталий Виноградов, менеджер по продуктам сервиса облачного видеонаблюдения и видеоаналитики Ivideon.

Кроме того, технологии помогают в рекрутинге. С помощью эмоционального ИИ можно проверить кандидата на соответствие должности или уличить во лжи во время собеседования.

«Автоматическая детекция пульса, дыхания и комплекса эмоциональных проявлений может свидетельствовать о дискомфорте сотрудника на рабочем месте, а также выявлять риск мошенничества на этапе отбора кандидатов в отраслях, особенно чувствительных к фроду – банковские и страховые компании», – Георгий Плиев, основатель и управляющий партнер Neurodata Lab.

Американская компания HireVue использует искусственный интеллект для оценки кандидатов. Соискатель проходит видео-интервью, а нейросеть определяет его состояние по ключевым словам, интонации голоса, движениям и выражению лица. ИИ выделяет важные для вакансии характеристики и выставляет оценки, а HR-менеджер выбирает подходящих кандидатов. 

Лондонский стартап Human по видео определяет эмоции и сопоставляет их с чертами характера. После видеоинтервью рекрутеры получают отчет, где говорится, насколько честным, любопытным, взволнованным, увлеченным или уверенным был кандидат и как он реагировал на вопросы.

Медицина

В этой сфере полезными будут не только бесконтактные, но и контактные способы определения эмоций. Их активно внедряют зарубежные стартапы – например, Affectiva и Brain Power. Среди разработок компаний – очки с ИИ, которые помогают детям и взрослым с аутизмом распознавать чужие эмоции и нарабатывать социальные навыки.

Но нейросети могут помогать больным и без нательных датчиков. Ученые из Массачусетского технологического института создали нейросеть, которая определяет депрессию, анализируя речь человека. Точность результата составила 77%. А стартап Beyond Verbal использует ИИ для анализа ментального здоровья пациентов. При этом нейросеть выделяет только голосовые биомаркеры из аудиозаписи.

Автомобили

Массачусетский технологический институт разрабатывает ИИ под названием AutoEmotive, который определит состояние водителя и пассажиров. Он будет не только следить за уровнем стресса, но и пытаться снизить его – включать спокойную музыку, регулировать температуру в салоне или выбирать менее загруженный маршрут.

«С помощью обычной камеры, размещенной в салоне автомобиля, можно анализировать эмоциональное состояние (агрессию и напряженность), уровень стресса, усталости, измерять пульс человека. В отличие от носимых датчиков, камера не отвлекает от процесса вождения и повышает безопасность. Таксопарки смогут выявлять водителей, которые часто садятся за руль слишком уставшими. Такие технологии также помогут автомобилю лучше понимать настроение и водителя, и пассажиров, и будут подстраивать атмосферу в салоне – музыку, освещение – чтобы сделать ее более комфортной. Пригодятся такие навыки и виртуальному голосовому помощнику», – Георгий Плиев, основатель и управляющий партнер Neurodata Lab.

Ограничения эмоционального ИИ

  • Нейросеть не может учесть контекст.

ИИ научился определять базовые человеческие эмоции и состояния, но пока плохо справляется с более сложными ситуациями. Ученые отмечают, что выражение лица не всегда точно показывает, что человек чувствует на самом деле. Его улыбка может быть наигранной или саркастической, и определить это можно только по контексту.

Специалисты NtechLab считают, что безошибочно определить причину, по которой возникает та или иная эмоция, пока трудно.

«Измерять эмоциональное состояние людей в каком-либо месте можно, но большинство имеют на лице нейтральную эмоцию. И даже если они расстроены или злы, возможно, что их расстроил или разозлил совсем не определенный товар в магазине и не качество обслуживания конкретного человека», – Ntech Lab.

В NtechLab подчеркивают, что необходимо распознавать не только выражение лица, но и движения человека. Разнообразие данных сделает эмоциональный ИИ намного эффективнее. С этим согласен и Даниил Киреев, ведущий исследователь компании-разработчика продуктов по распознаванию лиц VisionLabs. По его мнению, с большим объемом данных точность алгоритмов повышается.

«Ошибки бывают, их количество зависит от многих факторов: качество обучающей выборки, обученной нейронной сети, данных, на которых работает итоговая система. Добавив информацию из разных источников, – например, голос – можно улучшить качество работы системы. При этом важно понимать, что по лицу мы скорее определяем его выражение, нежели конечную эмоцию. Алгоритм может попытаться определить наигранную эмоцию, но для этого развитие технологии должно сделать небольшой шаг вперед», – говорит Даниил Киреев.

  • Плохое оборудование.

На качество работы алгоритмов влияют внешние факторы. Чтобы точность распознавания эмоций была высокой, видеокамеры и микрофоны должны быть качественными. Кроме того, на результат воздействуют освещение, расположение камеры. По мнению Даниила Киреева, неконтролируемые условия усложняют процесс определения состояний человека.

«Конечно, исследователи стараются создавать методы, которые устойчивы к подобного рода условиям, так что в ближайшем времени эти проблемы будут все менее значимыми. Также стоит отметить, что во многих сценариях использования пользователи проявляют эмоции крайне сдержанно, либо вообще стараются их скрыть, что определенно усложняет работу алгоритму», – Даниил Киреев, ведущий исследователь VisionLabs.

Чтобы эмоциональный ИИ развивался, нужно качественное оборудование. Если найти хорошую аппаратуру и правильно ее настроить, точность результатов будет очень большой. И когда она станет более доступной и распространенной, технологии распознавания эмоций будут совершенствоваться и внедряться активнее.

«Точность работы системы зависит от многих факторов. Главный из них – качество стоп-кадров с камеры, которые отдаются системе для распознавания. На качество стоп-кадров в свою очередь влияют настройки и характеристики камеры, матрица, освещение, расположение устройства, количество лиц в кадре. При правильной настройке оборудования и софта можно добиться точности определяемой эмоции вплоть до 90-95%», – отмечает Виталий Виноградов, менеджер по продуктам сервиса облачного видеонаблюдения и видеоаналитики Ivideon.

Перспективы технологии

Сейчас в России эмоциональный ИИ только набирает обороты. Стартапы развивают технологии и предлагают рынку свои продукты, а клиенты тестируют их с осторожностью.

«Громкие PR-кейсы о том, что какая-то компания внедряет распознавание эмоций, чтобы измерять удовлетворенность каждого посетителя сервисом, вызывают у нас недоверие. Чтобы получить обоснованные результаты, нужно проанализировать толпы людей – даже не сотни, а тысячи, и уж точно не кого-то одного», – компания NtechLab.

Но по оценке Gartner, к 2024 году больше половины рекламных объявлений в интернете будут сделаны с применением эмоционального ИИ. Компьютерное зрение, которое используют для определения эмоций, станет одной из самых важных технологий в следующие 3-5 лет. А MarketsandMarkets предсказывают рост рынка анализа эмоций в два раза к 2024 году – с 2,2 миллиарда до 4,6 миллиарда долларов.

Кроме того, к распознаванию эмоций проявляют интерес крупные компании – например, Procter & Gamble, Walmart, ВТБ, «Росбанк», Сбербанк и «Альфа-Банк». А отечественные стартапы разрабатывают пилотные проекты, которые в будущем станут готовыми решениями для бизнеса.

Источник: RB.RU


Комментарии