Почему нельзя доверять цифрам, полученным в результате качественных исследований юзабилити

Если качественное исследование юзабилити проводится с участием небольшого количества пользователей, а порядок проведения постоянно изменяется, то результаты такого исследования ненадежны и не будут отражать истинное поведение ваших пользователей.

Качественное юзабилити-тестирование — один из самых распространенных методов сбора пользовательских данных. Этот метод обычно представляет собой наблюдение за несколькими участниками тестирования, взаимодействующими с конкретными элементами дизайна, после чего исследователь делает выводы о том, с какими аспектами дизайна работать проблематично, а какие работают хорошо.

Некоторые исследователи используют качественные исследования для получения числовых данных:

В результате в отчетах или презентациях можно зачастую увидеть следующие формулировки:

  • 70% пользователей справились с выполнением задачи;
  • показатель простоты использования для нового дизайна намного выше, чем для старой версии (6,2 против 5,1);
  • средний уровень удовлетворенности — 6,7 по шкале от 1 до 7.

Такие утверждения вводят в заблуждение. Чтобы понять, почему, давайте обратимся к теории истинных оценок, которая играет важнейшую роль при проведении любых измерений.

1. Теория истинных оценок

Зачастую, для оценки удобства использования (юзабилити) дизайна, требуется выяснить значение определенного показателя для всех ваших пользователей. Например, вы можете узнать какой процент пользователей из всей вашей целевой аудитории может успешно разместить заказ на сайте интернет-магазина. Если у вас не крошечная аудитория (потому что, возможен вариант, что вы разрабатываете интранет для маленькой компании), у вас есть тысячи пользователей, и будет невозможно точно определить этот числовой показатель — в конце концов, чтобы его вычислить, вам нужно будет попросить каждого вашего пользователя сделать заказ на сайте и записать, получилось ли у них это.

Значение показателя, основанное на генеральной совокупности (все пользователи) называется истинной оценкой — это то, что нельзя определить с абсолютной точностью. Однако данный показатель можно оценить. Именно этим вы занимаетесь, когда проводите исследование с выборкой из нескольких ваших пользователей и просите их разместить заказ. 

В результате такого исследования вы получаете наблюдаемую оценку — то, сколько пользователей в вашей выборке смогли выполнить задачу. Наблюдаемая оценка часто используется, чтобы спрогнозировать истинную оценку.

Наблюдаемая оценка и истинная оценка — это не одно и то же. Теория истинных оценок гласит, что отличие между ними заключается в ошибке измерения:

Наблюдаемая оценка = истинная оценка + ошибка измерения

В зависимости от значения ошибки измерения мы может выяснить, насколько точной будет истинная оценка:

  • Если ошибка измерения незначительна — наблюдаемая оценка довольно точно отобразит истинную оценку;
  • Если ошибка измерения велика — наблюдаемая оценка мало что скажет нам об истинной.

2. Маленький размер выборки — значительная ошибка в измерениях

Как показывает практика, если размер выборки пользователей в исследовании невелик — ошибка измерения будет значительной. Почему так происходит? Каждый участник привносит в исследование свой личный контекст:

  • те, кто больше разбирается в онлайн-шоппинге — легко смогут оформить заказ;
  • те, кто не так хорошо взаимодействует с интернет-магазинами, могут чувствовать себя немного не в своей тарелке — им придется приложить больше усилий, чтобы сосредоточиться на задаче;
  • третьим может симпатизировать координатор исследования — они сделают все возможное, чтобы угодить ему.

Такой личный контекст только лишь создает помехи исследованию, поскольку не имеет никакого отношения к качеству вашего дизайна, но он будет влиять на наблюдаемую оценку. Это может исказить результаты вашего исследования в ту или иную сторону: 

  • человек, который отвлекается, будет менее эффективно выполнять задачи на сайте, тратить на это больше времени и совершать большее количество ошибок, соответственно иметь низкие показатели удовлетворенности;
  • счастливый участник с высоким уровнем мотивации, напротив, будет выставлять более высокие оценки, не отражающие реальность.

Если в вашем исследовании принимает участие всего несколько пользователей (например, 5 или 10), весьма вероятно, что их личный контекст исказит результаты. Однако, когда участников много, личный контекст не будет играть такой большой роли — на каждого человека, который недоволен и может поставить вам плохую оценку, обычно найдется человек, который счастлив и поставит более высокие баллы.

Таким образом, если в исследовании принимает участие небольшое количество людей, то оценка, полученная в результате его проведения, не позволит точно спрогнозировать реакцию остальных пользователей. Это объясняется существованием высокой вероятности того, что искажения, обусловленные личным контекстом участников, слишком сильно повлияют на полученные данные.

3. Статистика подскажет нам, можем ли мы доверять цифрам

Размер выборки помогает нам выяснить, стоит ли доверять полученным числовым значениям. Однако есть и другие показатели, с помощью которых мы можем убедиться в этом. Статистика помогает точно оценить ошибку измерения в результатах исследования.

Существует два статистических инструмента, которые помогут нам выяснить, может ли одна или несколько цифр, полученные в результате исследования, эффективно спрогнозировать истинную оценку: доверительные интервалы и статистическая значимость.

Доверительные интервалы

Доверительный интервал — это статистический инструмент, который позволяет нам количественно оценить, насколько точно конкретное числовое значение отображает истинную оценку. Доверительный интервал показывает вероятный диапазон, в котором находится истинная оценка, то есть наши ожидания относительно разницы между истинной оценкой и наблюдаемой. 

Например, если в ходе исследования 50 из 100 участников успешно выполнили задание, мы можем рассчитать доверительный интервал для коэффициента успешности среди всех пользователей как диапазон от 40% до 60%. Другими словами, истинная оценка успешности находится где-то между 40% и 60% — это может быть 42% или 59%. Мы также можем сказать, что истинная оценка составляет 50% ± 10%, то есть наша ошибка измерения в этом исследовании составляет ± 10%. (Все доверительные интервалы, рассчитанные в статье являются 95%-ми — вероятность того, что интервал содержит нужное значение составляет 95%, однако уровень достоверности является технической характеристикой, на которой мы не будем останавливаться.)

Ширина доверительного интервала сильно зависит от размера выборки. Например, если вы проводите исследование с 10 участниками, и 5 из них завершили выполнение задачи, ваш доверительный интервал составит 50% ± 26% — от 24% до 76%. Это означает, что коэффициент успешности выполнения задачи может быть как достаточно высоким, например, 75%, так и очень низким — 32%. 

Если в исследовании принимает участие небольшое количество людей, то ошибка измерения будет высокой, а диапазон оценок — чрезвычайно широк.

Однако если в вашем исследовании будет участвовать 100 пользователей и 50 из них успешно выполнят задачу, наблюдаемая оценка все равно будет равна 50%, но доверительный интервал составит 50% ± 10% (или от 40% до 60%). Таким образом, ошибка измерения станет гораздо меньше.

Статистическая значимость

В то время как доверительные интервалы используются для определения диапазона истинной оценки на основе наблюдаемой оценки, статистическая значимость позволяет нам сравнить две наблюдаемые оценки. Она показывает, отражает ли разница между ними реальную разницу между соответствующими истинными оценками или нет.

Представьте ситуацию: в результате проведения исследований двух разных дизайнов А и Б, вы получаете коэффициенты успешности выполнения задачи, которые составляют 60% и 70% соответственно. Данные показатели говорят о том, что дизайн Б лучше, чем дизайн А. Однако, эти числа представляют собой наблюдаемые оценки и, соответственно, не совсем точны. Таким образом, вполне возможно, что наблюдаемое расхождение показателей в 10% между дизайнами А и Б не отражает реальной разницы. Другими словами, если истинная оценка успеха составит 65% — для дизайна А и 60% — для дизайна Б, то, на самом деле, дизайн А окажется лучше дизайна Б.

Статистическая значимость позволяет нам определить, является ли наблюдаемое различие реальным или оно просто отражает неточности в измерениях. Существует множество тестов на установление статистической значимости, каждый из которых применим при определенных обстоятельствах, но все они возвращают p-значение — вероятность того, что различие вызвано случайностью или неточностями измерений. Если p-значение мало (менее 0,05), разница будет статистически значимой — другими словами, она отражает реальную разницу в истинных оценках.

Возвращаясь к нашему примеру: без проведения теста на статистическую значимость, мы не можем сказать, какой из дизайнов — А или Б — лучше, основываясь лишь на наблюдаемых оценках. Нам необходимо будет выяснить, является ли установленная разница статистически значимой. И только если это так, мы сможем заключить, что дизайн Б лучше, чем дизайн А.

4. Различия в порядке проведения качественных исследований

Итак, надеюсь, все мои попытки убедить вас, что исследования с небольшим количеством участников обычно приводят ко множеству значительных ошибок в измерениях, не прошли даром. Это основная причина, по которой вы, вероятнее всего, не сможете сделать выводы, применимые ко всем вашим пользователям, вне зависимости от того, чему равен коэффициент успешности — 70% или 20%.

Однако есть еще одна причина, по которой числовые значения, полученные в результате проведения качественных исследований, ненадежны. Это различия в порядке проведения исследований.

При проведении количественных исследований юзабилити необходимо убедиться в отсутствии спорных переменных, которые могут повлиять на возникновение ошибок в измерении. Поэтому исследователь усердно работает над тем, чтобы обеспечить как их внутреннюю, так и внешнюю достоверность. 

Условия проведения исследования обычно подробно документируются, а спецификации строго соблюдаются от одного участника в другому. Даже в ходе проведения очных количественных исследований модератор чаще всего либо минимально, либо вообще не вмешивается в процесс.

Качественные исследования, напротив, часто носят формирующий характер — они стремятся выявить проблемы в дизайне и  как можно быстрее устранить их. В отличие от количественных исследований, они позволяют координатору в определенной мере направлять участников в нужную сторону (не подталкивая их к конкретному ответу или действию) или задавать уточняющие вопросы. Иногда, разные сеансы могут включать разные задачи или даже дизайны, например, если вы проводите параллельное и итерационное тестирование.

В результате, очень часто происходит так, что одна сессия качественного исследования будет отличаться от следующей по ряду параметров:

  • по степени вмешательства модератора в процесс;
  • по уровню озвученных размышлений участников;
  • разными задачами и интерфейсами. 

Такая вариативность в конечном счете приводит к повышению неточности результатов. Один участник мог выполнить задание на сайте без помощи, а другому, возможно, потребовались повторные указания координатора. Их коэффициенты успешности выполнения задачи и даже уровень удовлетворенности могут в конечном счете быть одинаковыми, но только из-за внешних факторов.

Одна из сильных сторон качественного тестирования —  гибкость процесса, что способствует быстрому выявлению проблем в дизайне. Однако это также является и негативной стороной качественного исследования, поскольку вероятность получить неточный результат намного больше, чем при проведении количественного исследования.

5. Не включайте в отчет числа, не подкрепленные статистическими данными

Всякий раз, когда вы включаете в отчет числовые значения, основанные на выборке ваших пользователей, выполните математические вычисления — рассчитайте доверительные интервалы и статистическую значимость, чтобы увидеть, насколько точно наблюдаемые оценки (цифры, полученные в ходе исследования) отражают соответствующие истинные оценки и поведение всех ваших пользователей.

Из этого правила есть одно исключение — если ваша выборка включает всех пользователей. В таком случае мы не делаем никаких прогнозов: мы просто получаем истинную оценку. Например, если бы я хотел узнать процент голубоглазых людей в моем классе из 100 человек, я бы просто посчитал их и получил процент.

Однако, если бы я хотел узнать долю голубоглазых людей среди читателей статей Nielsen Norman Group, я бы не смог их просто посчитать — необходимо выполнить следующий алгоритм действий:

  • сделать выборку;
  • выяснить, сколько людей в этой выборке имеют голубые глаза;
  • вычислить доверительный интервал, который и будет вероятным диапазоном процента голубоглазых читателей.

Если заинтересованные стороны настаивают на том, чтобы вы предоставили им числовые значения, полученные в результате проведения исследований с небольшим количеством участников, объясните ситуацию и дайте понять, что таким цифрам доверять нельзя. Убедитесь, что вы указали, применимы ваши результаты ко всем пользователям или нет. 

Даже если вы тщательно разработаете формулировку для использования в конкретном исследовании, люди будут склонны делать обобщения. Например, вы можете сказать: “Средний показатель удовлетворенности в нашем исследовании составил 6.7 по шкале от 1 до 7”, но заинтересованные стороны, скорее всего, воспримут, что средний показатель составил 6.7 для всех пользователей. Поэтому всегда четко указывайте, можно ли сделать какие-либо выводы о пользователях в целом.

Заключение

Любое исследование, в котором принимают участие не все, а лишь часть ваших пользователей, повлечет ошибки измерения. Числовые значения, полученные в результате проведения исследований с маленьким количеством участников, обычно приводят к большим погрешностям и неточным прогнозам. Чтобы понять, насколько значительна ошибка измерения и насколько точно полученные в ходе исследования цифры отражают поведение пользователей в целом, вам необходимо использовать статистические инструменты, такие как доверительные интервалы и статистическая значимость.

Источник:
nngroup.com
arrow