Почему вам достаточно всего 5 пользователей для полноценного тестирования юзабилити

Резюме: Сложные тесты юзабилити — это пустая трата ресурсов. Наилучшие результаты получаются от тестирования не более чем с 5-ю пользователями и проведения такого большого количества мелких тестов, какое вы можете себе позволить.

Некоторые люди считают, что юзабилити это очень дорого и сложно, и что пользовательские тестирования должны быть предназначены для редкого проекта веб-дизайна с огромным бюджетом и расточительными сроками. Не правда. Детально прорабатывать тестирования юзабилити — это пустая трата ресурсов. Наилучшие результаты получаются от тестирования не более чем с 5-ю пользователями и проведения такого большого количества мелких тестов, какое вы можете себе позволить.

В ранее проведенных исследованиях Том Ландауэр и я продемонстрировали, что количество проблем, связанных с удобством использования интерфейса, найденных в тестировании юзабилити с n пользователями равно:

N (1- (1- L) n)

где N — общее количество проблем юзабилити в дизайне, а L — это доля проблем юзабилити, обнаруженных при тестировании одного пользователя. Среднее значение L составляет 31%, усредненный показатель среди большого количества проектов, которые мы изучили. Построение кривой для L = 31% дает следующий результат:

Самая явная истина кривой заключается в том, что 0 пользователей дают 0 выводов из анализа.

По мере сбора данных от одного протестированного пользователя, ваши результаты стремятся вверх, и вы уже узнали почти треть всего, что нужно знать об удобстве использования интерфейса в дизайне. Разница между нулем и даже небольшим количеством данных поражает.

Во время тестирования второго пользователя, вы обнаружите, что этот человек делает некоторую часть того же, что и первый пользователь, поэтому есть некоторое совпадение в том, что вы изучаете. Люди определенно отличаются, поэтому также будет что-то новое, что сделает второй пользователь, то, чего вы не зафиксировали с первым пользователем. Таким образом, второй пользователь добавляет немного новых выводов, но не так много, как первый пользователь.

Третий пользователь сделает множество вещей, которые, вы уже заметили, сделали первый или второй пользователи, и даже некоторые вещи, которые вы уже наблюдали дважды. Кроме того, конечно, третий пользователь будет генерировать небольшое количество новых данных, пусть и не так много, как это делали первый и второй пользователи.

Добавляя все больше и больше пользователей, вы узнаете все меньше и меньше, потому что вы опять будете видеть то же самое снова и снова. Нет реальной необходимости продолжать наблюдать за одним и тем же несколько раз. Также вы будете очень заинтересованы вернуться к проектированию и сделать редизайн, чтобы устранить проблемы использования интерфейса.

После пятого пользователя вы тратите свое время, повторно фиксируя одни и те же выводы, но не изучая ничего нового.

Итерационное проектирование

Кривая ясно показывает, что вам нужно протестировать как минимум 15 пользователей, чтобы выявить все проблемы юзабилити в дизайне. Так почему я рекомендую тестировать гораздо меньшее количество пользователей?

Основная причина заключается в том, что лучше распределить свой бюджет на  множество небольших пользовательских тестов, а не тратить все на одно детальное исследование. Допустим, у вас есть средства, чтобы привлечь 15 соответствующих клиентов и попросить их протестировать ваш дизайн. Отлично. Потратьте этот бюджет на 3 исследования с 5 пользователями в каждом!

Вам понадобится провести несколько тестов, потому что настоящая цель проектирования с учетом юзабилити заключается в улучшении дизайна, а не только в документальном подтверждении его недостатков. После того, как первое исследование с пятью участниками выявило 85% проблем с юзабилити, вы захотите исправить эти проблемы, сделав редизайн.

После создания нового дизайна нужно еще раз провести тестирование. Хотя я сказал, что редизайн должен «исправить» проблемы, обнаруженные при первом исследовании, правда в том, что вы думаете, что новый дизайн устранит проблемы. Но поскольку никто не может создать идеальный пользовательский интерфейс, нет никакой гарантии, что новый дизайн действительно решит проблемы. Второе тестирование определит, сработали исправления или нет. Кроме того, при внедрении нового дизайна всегда существует риск возникновения новой проблемы удобства использования интерфейса, даже если старая проблема была решена.

Кроме того, во втором исследовании с 5 пользователями можно выявить большинство из оставшихся 15% первоначальных проблем юзабилити, которые не были обнаружены на первом этапе тестирования. (Остается еще 2% первичных проблем — им придется подождать третьего исследования, чтобы можно было их идентифицировать.)

Наконец, с помощью второго исследования возможно будет глубже изучить удобство использования основной структуры сайта, оценить такие вопросы, как информационная архитектура, алгоритм выполнения задач и соответствие потребностям пользователей. Эти важные вопросы часто не видны в рамках первоначальных исследований, когда пользователи заходят в тупик из-за глупых поверхностных проблем юзабилити, которые мешают им толком разобраться с сайтом.

Таким образом, второе исследование одновременно послужит гарантией качества результатов первого исследования, а также поможет раскрыть глубинные причины и взаимосвязи. Второе исследование всегда приводит к новому (но меньшему) списку проблем юзабилити, которые необходимо исправить при редизайне. То же самое относится и к самому редизайну: не все исправления будут работать; некоторые более глубокие проблемы будут обнаружены после очистки интерфейса. Соответственно, необходимо также третье исследование.

Окончательный результат опыта взаимодействия с пользователем значительно улучшается при проведении 3 исследований с 5 пользователями в каждом, нежели громадного исследования с 15 пользователями.

Почему бы не протестировать только с одним пользователем?

Вы можете подумать, что 15 исследований с одним пользователем будет даже лучше, чем 3 исследования с 5 пользователями. Кривая действительно показывает, что мы узнаем гораздо больше от первого пользователя, чем от любых последующих пользователей, так зачем продолжать? Есть две причины:

  • Всегда существует риск быть введенным в заблуждение нетипичным поведением одного человека, который может совершить некоторые действия случайно или нехарактерным образом. Даже трех пользователей достаточно, чтобы получить представление об отличиях в поведении пользователей и понять, что уникально, а что можно обобщить.
  • Анализ преимуществ и недостатков тестирования пользователей предусматривает оптимальное соотношение около 3 или 5 пользователей, в зависимости от направления тестирования. Всегда существуют фиксированные первоначальные затраты, связанные с планированием и проведением исследования: лучше снизить их на основе выводов, полученных от нескольких пользователей.

Когда необходимо тестировать больше пользователей

Вам необходимо протестировать дополнительных пользователей, когда веб-сайтом пользуется несколько очень отличающихся групп пользователей. Эта формула применима только для сопоставимых пользователей, которые будут пользоваться сайтом примерно одинаково.

Если, например, у вас есть сайт, которым будут пользоваться и дети, и родители, то поведение этих двух групп пользователей будет совершенно разным, что приведет к  необходимости протестировать людей из обеих групп. То же самое можно сказать и о системе, направленной на установление контакта между агентами по закупкам с сотрудниками отдела продаж.

Даже когда группы пользователей сильно отличаются, в сведениях, полученных путем наблюдения за этими двумя группами все равно будет много общих черт. В конце концов, все пользователи — люди. Кроме того, многие проблемы удобства использования связаны с базовым способом взаимодействия людей с Интернетом и влиянием других сайтов на поведение пользователей.

При тестировании нескольких групп непохожих пользователей вам не нужно включать столько же членов в каждую группу, сколько вы бы включили при проведении одного тестирования одной группы пользователей. Частичное совпадение наблюдений обеспечит лучший результат при тестировании меньшего числа людей в каждой группе. Я рекомендую:

  • 3–4 пользователя из каждой категории для тестирования двух групп пользователей.
  • 3 пользователя из каждой категории для тестирования трех или более групп пользователей (вам понадобится как минимум 3 пользователя чтобы гарантировать, что вы охватили разнообразие форм поведения в группе)
Источник:
nngroup.com
arrow