AI — третья парадигма пользовательского интерфейса в истории вычислительной техники. Это переход к новому механизму взаимодействия, где пользователи говорят компьютеру, чего они хотят, а не как это сделать, тем самым смещая границы ответственности.
ChatGPT и другие системы искусственного интеллекта формируют третью парадигму пользовательского интерфейса в истории вычислительной техники — первую новую модель взаимодействия за более чем 60 лет.
Первые две парадигмы
Парадигма 1: Пакетная обработка
Первая UI-парадигма — пакетная обработка — появилась вместе с компьютерами в середине 1940-х. В этой парадигме пользователь задавал набор действий, которые должен был выполнить компьютер. Инструкции передавались в центр обработки данных (обычно в виде стопки перфокарт) и обрабатывались в течение некоторого времени, часто ночью.
Позже, например, на следующее утро, пользователь забирал результаты обработки: чаще всего это была толстая пачка распечаток, но могла быть и новая стопка перфокарт. Если исходная партия содержала хоть малейшую ошибку, выходных данных не было, или результат становился бессмысленным.
С точки зрения UI пакетная обработка не предполагала никакого взаимодействия между пользователем и компьютером. Единственной точкой контакта были перфокарты. Обычно требовалось несколько дней, чтобы настроить пакетную обработку должным образом и получить желаемый результат.
Парадигма 2: Взаимодействие на основе команд
В 1964 году с появлением технологии разделения времени (когда несколько человек смогли использовать один компьютер через подключенные терминалы) возникла вторая парадигма пользовательского интерфейса: взаимодействие на основе команд. Эта парадигма оказалась настолько эффективной, что с тех пор — вот уже более 60 лет — она доминирует в вычислительной технике.
Взаимодействие на основе команд является основным подходом для трех поколений интерфейсов: командные строки (например, DOS и Unix), полноэкранные текстовые терминалы (характерные для мэйнфреймов IBM) и графические интерфейсы (Macintosh, Windows и все современные платформы для смартфонов).
Преимущество командного взаимодействия по сравнению с пакетной обработкой очевидно: после выполнения каждой команды пользователь может заново оценить ситуацию и изменить последующие команды, чтобы продвинуться к желаемой цели.
Фактически, пользователю даже не обязательно иметь в голове полностью определенную цель, поскольку он может корректировать свой подход к решению проблемы по мере получения от компьютера дополнительной информации и изучения результатов выполнения первоначальных команд. (Это так, если при проектировании соблюдается первая из 10 эвристик юзабилити: видимость состояния системы).
Командные строки часто не показывали текущее состояние системы, что приводило к снижению удобства использования. Например, в Unix отсутствие новостей считалось хорошей новостью, поскольку вы получали от компьютера обратную связь только в случае ошибки. Отсутствие ошибок означало отсутствие информации о новом состоянии, что затрудняло составление следующей команды.
Прелесть графических пользовательских интерфейсов заключается в том, что они показывают состояние после каждой команды, по крайней мере, если они хорошо спроектированы. Графический интерфейс доминирует в мире UX с момента выпуска Macintosh в 1984 году: около 40 лет господства, пока его, возможно, не сменит следующее поколение технологий и, что еще более важно, следующая UI-парадигма в виде искусственного интеллекта.
Новейшая парадигма
Парадигма 3: Результаты на основе запроса
Я сомневаюсь, что существующие генеративные AI-инструменты (такие как ChatGPT, Bard и т.д.) в полной мере отражают, какие UI мы будем использовать через несколько лет, поскольку они имеют серьезные проблемы юзабилити. Эти проблемы привели к появлению новой профессии — prompt-инженера или инженера по подсказкам. Задача такого специалиста — «пощекотать» ChatGPT в правильном месте, чтобы он выдал нужные результаты.
Было время, когда мы тоже обращались к специально обученным людям — специалистам по запросам — чтобы найти нужную информацию в обширных базах данных. Затем появился Google, и поиск стал доступен каждому. Такой же скачок в удобстве использования необходим и этим новым инструментам: юзабилити станет их конкурентным преимуществом. (И если вы подумываете о том, чтобы стать инженером по подсказкам, не рассчитывайте на длительную карьеру).
В рамках текущего взаимодействия, пользователям приходится описывать свои проблемы в текстовой форме. Учитывая результаты последних исследований грамотности, я считаю, что половина населения развитых стран неспособна изложить свои мысли достаточно ёмко и грамотно, чтобы получить от современных AI-инструментов хорошие результаты.
При этом AI-интерфейсы представляют собой другую парадигму взаимодействия человека и компьютера — парадигму, которая кажется чрезвычайно многообещающей.
При взаимодействии на основе команд пользователь дает компьютеру инструкции, одну за другой, постепенно добиваясь желаемого результата. Компьютер полностью послушен и выполняет все, что ему говорят. Из-за недостатков юзабилити некоторые пользователи вводят команды, которые приносят совсем не тот результат, который им нужен.
В случае с новыми AI–системами человек уже не говорит компьютеру, что делать. Он, скорее, сообщает, какой результат он хочет получить. Таким образом, третья парадигма, представленная современным генеративным AI, — это результат на основе запроса.
Простой пример:
Создай рисунок для обложки научно-фантастического журнала, на котором изображен ковбой в скафандре на безвоздушной планете с двумя красными лунами в небе.
Попробуйте сделать такую иллюстрацию в Photoshop без помощи AI. Вам пришлось бы произвести сотни манипуляций. А Bing Image Creator выдал мне четыре варианта за несколько секунд.
В этой новой UI-парадигме, представленной современным генеративным AI, пользователь сообщает компьютеру желаемый результат, но не указывает, каким образом он должен быть достигнут. По сравнению с традиционным взаимодействием на основе команд эта парадигма полностью смещает границы ответственности. Я сомневаюсь, что такой опыт вообще можно назвать «взаимодействием», поскольку здесь нет ни очередности, ни постепенного продвижения вперед.
В примере с научно-фантастической иллюстрацией меня не устраивают скафандры. Их можно исправить, написав еще один запрос. Такие итерации постепенной доработки — форма взаимодействия, которая в настоящее время работает неидеально, что предоставляет широкие возможности для повышения юзабилити тем создателям AI-инструментов, которые проводят исследования пользователей, чтобы найти лучшие способы управления своими системами.
Делай то, что я хочу, а не то, что я говорю — соблазнительная парадигма. Как уже говорилось, люди часто приказывают компьютеру делать не то, что нужно. С другой стороны, возложение полной ответственности на компьютер имеет свои недостатки, особенно в случае с современными AI-инструментами, которые склонны включать в свои результаты ошибочную информацию. Когда пользователь не знает, как именно была выполнена та или иная операция, ему сложнее выявить и устранить проблему.
Новая парадигма не дотягивает до уровня некомандных систем, которые я описал в 1993 году. Настоящая некомандная система не требует четкого указания намерений, поскольку компьютер действует как побочный эффект обычных действий пользователя.
Пример: человек нажимает на ручку двери автомобиля и разблокирует его — это некомандная разблокировка, поскольку пользователь будет выполнять одно и то же действие независимо от того, заперта машина или нет. Напротив, автомобиль, управляемый при помощи системы распознавания голоса, разблокирует дверь, если пользователь скажет: «Разблокируй машину» — это запрос. А в случае со старым автомобилем явной командой будет само действие — вставить и повернуть ключ.
Достигнут ли AI-системы высокого уровня юзабилити в рамках новой парадигмы пока неясно. Я сомневаюсь в этом, поскольку являюсь страстным поклонником графических интерфейсов. Визуальную информацию легче понять, с ней быстрее взаимодействовать, чем с текстом. Смогли бы вы заполнить длинную форму (например, заявку на открытие банковского счета), общаясь с чат-ботом — даже таким умным, как новые генеративные AI-инструменты?!
Клики и касания — интуитивный важный аспект взаимодействия с пользователем, который не следует упускать из виду. Таким образом, вторая UI-парадигма сохранится, хотя и в менее доминирующей роли. В будущем AI-системы, скорее всего, будут иметь гибридный пользовательский интерфейс, сочетающий в себе запросы и команды, но при этом сохраняющий многие элементы графического интерфейса.