В ходе недавнего исследования DuckDuckGo выяснилось, что даже после многочисленных скандалов Google всё ещё корректирует результаты поиска для конкретного пользователя (причём идентификация срабатывает даже в приватном режиме браузера). Перевод заметки DuckDuckGo.
Пузырь поисковых фильтров:
Как Google влияет на то, что вы видите в интернете?
Долгие годы интернет обсуждает проблему поисковых фильтров. Если по простому, вы видите лишь то, что хотели бы видеть. Сайт попросту подстраивает контент под ваши интересы, выставляя на показ то, что вам нравится, и скрывая то, что вы сами хотели бы скрыть. Так работает большинство поисковиков и социальных сетей. В теории это могло бы быть полезно, но на практике от вас скрывают огромный пласт информации. Например, поисковая выдача в Google или Яндекс почти всегда индивидуально. Она подстраивается под конкретного пользователя и почти никогда не повторяется. Google знает ваши интересы и показывает вам лишь то, что может вас заинтересовать. А раз именно это вас заинтересовало, значит Google и дальше будет подсовывать вам одни и те же интерпретации разных тем. Это замкнутый круг.
Если проблема кажется вам слегка надуманной, подумайте о политике. Ведь если у вас возникнут какие-то вопросы по поводу грядущей реформы или вы усомнитесь в каких-то данных, которые приводит один из кандидатов, куда вы отправитесь проверять информацию? Правильно, в интернет! А интернет подсунет вам уже скорректированную конкретно под вас поисковую выдачу. А теперь представьте, что и другие пользователи получают искажённую информацию. Пузырь поисковых фильтров со временем может превратиться в весьма эффективный инструмент политической цензуры или нечестной предвыборной борьбы.
Ещё в 2012 г. мы провели исследование, доказавшее, что поисковые фильтры могли существенно повлиять на результаты выборов президента Соединённых Штатов: во время предвыборной гонки Google гораздо охотнее ссылался на публикации о Бараке Обаме, чем на статьи, в которых упоминался его тогдашний оппонент Мит Ромни. Позже результатами наших изысканий заинтересовался и влиятельный журнал The Wall Street Journal: «Эксперименты показывают, что Google подстраивается под пользователей, которые недавно искали информацию об Обаме, но совершенно игнорирует тех, кто интересовался Ромни».
Президентская кампания 2016 г. вновь пробудила интерес к рычагам политической манипуляции. Поэтому мы решили повторить наши изыскания и выяснить, как устроены пузыри поисковых фильтров сегодня.
К каким выводам мы пришли?
Руководство Google заверяет, что им удалось скорректировать работу поисковых фильтров и проблема политической «предвзятости» давно ушла в прошлое. Однако мы уверенны в обратном. Мы просто вводили одинаковые поисковые запросы от лица разных пользователей и пришли к следующим выводам:
- Большинство участников эксперимента видели уникальную поисковую выдачу. Отличие в результатах поиска нельзя объяснить местом проживания, временем или случайным попаданием некоторых пользователей в экспериментальную группу, на которой Google по чистому совпадению решили протестировать новые поисковые алгоритмы.
- Иногда на первой странице поисковой выдачи некоторые пользователи видели сайты, которые остальным участникам эксперимента были недоступны. Причём поисковику было совершенно плевать, используете ли профиль в Google или работаете в режиме «Инкогнито».
- Результаты поиска по новостным сайтам или видеоматериалам для разных пользователей также существенно разнились. Несмотря на то, что пользователи из одного региона дословно искали одно и тоже, поисковик упорно подсовывал им разные результаты.
- Приватный режим или отказ от профилей Google не спасут вас от влияния поисковых фильтров. Увы, такой способ защиты конфиденциальности уже давно не выдерживает никакой критики. На самом деле у вас попросту нет ни единого способа избежать поисковых фильтров Google (вы, разве что, могли бы использовать другой поисковик).
Некоторые из вас, возможно, захотят глубже разобраться в проблеме. Поэтому мы публикуем подробности наших исследований ниже. Надеемся, это сподвигнет кого-то на дальнейшее исследование поисковых фильтров.
Методология
Мы попросили несколько десятков добровольцев одновременно ввести в Google несколько специфических поисковых запросов: «контроль за использованием огнестрельного оружия» («gun control»), «иммиграция» («immigration») и «прививки» («vaccinations»). Замеры производились в воскресенье, 24 июня 2018 г. в 21:00 (ET). Сперва волонтёры искали информацию в приватном режиме (то есть без аккаунта Google), а затем повторяли процедуру в обычном. Мы собрали 87 «пакетов», из них 76 – для компьютеров, 11 – для мобильных устройств. Обратите внимание, что в своём исследовании мы ограничились лишь Соединёнными Штатами (разные страны имеют разный поисковый индекс и результаты выдачи в любом случае будут разниться).
При анализе результатов поисковой выдачи мы рассматривали лишь домены высшего уровня: например, страница www.cdc.gov/vaccines/adults и страница www.cdc.gov/features/vaccines-travel приравниваются к сайту cdc.gov.
Вывод №1. Большинство пользователей видели уникальную поисковую выдачу даже в режиме приватного просмотра.
Чтобы просчитать все возможны варианты поисковой выдачи, мы выделили в ней ряд основных элементов: обычные ссылки, блок новостей и блок видеозаписей. На рекламные объявления и раздел похожих поисковых запросов мы просто не обращали внимания. Эти блоки также могли отличаться, но этими различиями вполне можно было пренебречь.
Особое внимание следует уделить порядку поисковой выдачи. Вам может показаться, что если поисковик показывает пользователям одинаковые сайты, порядок, в котором их увидит пользователь, совершенно не важен. На самом деле всё немного сложнее… Каждая следующая ссылка получит в два раза меньше «кликов», чем предыдущая, и в два раза больше, чем последующая. Пользователи нажимают на первую ссылку гораздо чаще, чем на вторую, а на вторую – гораздо чаще, чем на третью, и т. д.
Количество различий в поисковой выдаче представлено ниже. Пока мы ограничиваемся лишь настольными компьютерами (дело в том, что количество основных блоков поисковой выдачи на ПК и на смартфоне могут существенно разниться, и подсчитать эти различия будет непросто). Поэтому пока в исследовании упоминается лишь 76 участников вместо обещанных 87. Местоположение также учитывалось, но об этом чуть позже.
Приватный режим (без аккаунта Google):
- «контроль за использованием огнестрельного оружия»: 62 варианта поисковой выдачи для 52 (из 76) участников эксперимента (68%)
- «иммиграция»: 57 вариантов поисковой выдачи для 43 (из 76) участников эксперимента (57%)
- «прививки»: 73 варианта поисковой выдачи для 70 (из 76) участников эксперимента (92%)
Обычный режим:
- «контроль за использованием огнестрельного оружия»: 58 вариантов поисковой выдачи для 45 (из 76) участников эксперимента (59%)
- «иммиграция»: 59 вариантов поисковой выдачи для 48 (из 76) участников эксперимента (63%)
- «прививки»: 73 варианта выдачи для 70 (из 76) участников эксперимента (92%)
Если бы проблемы поисковых фильтров не существовало, вариантов поисковой выдачи было бы не так много. Однако на практике это совсем не так! Большинство пользователей видят уникальные результаты, причём «приватный» режим браузера на поисковую выдачу почти не влияет.
Иногда результаты поиска могут варьироваться по объективным причинам: к ним относятся, например, время поиска. Некоторые сайты «чувствительны» ко времени, и в определённые моменты поисковик будет существенно поднимать их в своей выдаче. Однако мы учли влияние этого фактора и попросили участников эксперимента «гуглить» одновременно.
Вторым важным фактором, влияющем на результаты, может стать местоположение пользователя. Например, в зависимости от региона, в котором вы проживаете, Google может показывать вам новости от местных СМИ. Этот фактор мы также постарались учесть: для этого нам пришлось вручную проверить результаты поисковой выдачи, и региональных сайтов там почти не было:
- «контроль за использованием огнестрельного оружия»: 1 обычная ссылка и 1 ссылка в новостном блоке
- «иммиграция»: 0 ссылок
- «прививки»: 15 обычных ссылок и 4 ссылки в новостном блоке
Чтобы исключить влияние локальных ссылок, мы заменили их на localdomain.com для обычных ссылок и «Локальный сервис» для ссылок в новостных блоках. Другими словами, если поисковая выдача для двух пользователей отличается лишь местными сайтами, эти различия мы не учитывали. Интересно, что такая корректировка не оказала почти никакого влияния на результаты нашего исследования.
Ещё одной причиной, по которой результаты поисковой выдачи могут существенно отличаться, могло бы стать тестирование новых поисковых алгоритмов (обычно их тестируют на небольшой группе случайных пользователей). Однако в этом случае большинство участников эксперимента увидело бы абсолютно идентичные результаты и лишь нескольким «счастливчикам» Google мог бы показать результаты работы тестового алгоритма. Однако большинство добровольцев видели уникальные результаты.
Вывод №2. Некоторым участникам эксперимента Google показал ссылки, которые были скрыты от других пользователей.
В поисковой выдаче Google содержится десять обычных ссылок. Порядок их расположения тоже важен: первая ссылка получает 40% кликов, вторая – 20%, третья – 10% и т. д. Но на данном этапе наш интересуют сами домены, которые попадают на первую страницу выдачи.
Логично было предположить, что без поисковых фильтров в выдачу попадёт около десяти уникальных доменов, однако мы обнаружили гораздо больше. Вот какие результаты мы получили, заменив все местные сайты на localdomain.com, работая в приватном режиме:
- «контроль за использованием огнестрельного оружия»: 19 доменов
- «иммиграция»: 15 доменов
- «прививки»: 22 домена
Как видно на схеме выше, некоторым пользователям показывали результаты, которых не видели остальные участники эксперимента, при этом основной массив «популярной» выдачи был от них скрыт. Если бы вы попали в список «счастливчиков», у вас бы не было возможности узнать об этом, ведь чисто внешне выдача не вызвала бы у вас никаких подозрений.
Вывод №3. Содержание блоков новостей и видеороликов существенно разнятся.
Особый интерес для нас представляли блоки новостей и видеороликов. В них всего три позиции, однако их содержание почти всегда отличалось. Мы работали в приватном режиме и заменили все местные сайты на «Локальный источник».
Блок новостей:
- «контроль за использованием огнестрельного оружия»: 3 варианта из 5 источников видели 75 (из 76) участников эксперимента; наиболее распространённый вариант выдачи видели 69 пользователей (90%)
- «иммиграция»: 6 вариантов из 7 источников видели 75 (из 76) участников эксперимента; наиболее распространённый вариант выдачи видели 35 пользователей (46%)
- «прививки»: 2 варианта из 3 источников видели 2 (из 76) участников эксперимента; наиболее распространённый вариант выдачи видели 2 (из 76) участников эксперимента; каждый из них видел уникальный вариант выдачи (1%)
Блок видеозаписей:
- «контроль за использованием огнестрельного оружия»: 12 вариантов из 7 источников видели 75 (из 76) участников эксперимента; наиболее распространённый вариант выдачи видели 24 пользователя (32%)
- «иммиграция»: 6 вариантов из 6 источников видели 75 (из 76) участников эксперимента; наиболее распространённый вариант выдачи видели 42 пользователя (55%)
- «прививки»: блоки не отображались в результатах поиска
Например, в случае с «иммиграцией» Google показывал следующие новостные сайты (как и в случае с обычными ссылками, тут важен порядок, в котором пользователю показывают новостные сайты):
- Today, MSNBC, NBC News (42 пользователя)
- MSNBC, Today, NBC News (26 пользователей)
- Today, MSNBC, MSNBC (4 пользователя)
- MSNBC, Today, Today (1 пользователь)
- New York Times, CNN, MSNBC (1 пользователь)
- Today, MSNBC, RealClearPolitics (1 пользователь)
Помните, что все поисковые запросы выполнялись одновременно, в приватном режиме и без использования аккаунтов Google, а все ссылки на местные источники заменялись на localdomain.com. Поэтому различия поисковой выдачи нельзя объяснить временем поиска или местоположением пользователя. При этом некоторые пользователи вообще не видели информационных блоков.
Вывод №4. Приватный режим браузера и отказ от использования аккаунта Google не защитят вас от влияния поисковых фильтров.
Большинство пользователей ждёт, что работа в приватном режиме или выход из аккаунта обеспечивают некоторую анонимность, но на деле это не так. Мы обнаружили, что результаты поисковой выдачи в приватном режиме мало отличаются от результатов выдачи в обычном. Дело в том, что сайты идентифицируют пользователей по уникальным цифровым отпечаткам или IP. Даже если вы вышли из профиля или открыли поисковик в приватном режиме, Google знает, что вы – это вы.
Если бы поиск в приватном режиме был бы действительно анонимным, все пользователи видели бы одинаковые результаты, но это не так. Чтобы убедиться в этом, мы убрали из выдачи рекламные ссылки и все информационные блоки. Кроме того:
- Каждому домену было присвоено уникальное буквенное обозначение (например, A для nytimes.com, B для wsj.com и т. д.).
- Из этих букв мы составили последовательность, уникальную для каждого пользователя, участвовавшего в эксперименте (например, ABDFJKMSL).
- Затем мы сравнили полученные комбинации, чтобы понять, насколько они похожи.
Найденные различия мы попытались выразить с помощью чисел. Например, между выдачей ABC и выдачей ACB одно отличие (технически это довольно сложный процесс, а объяснить его ещё сложнее).
При этом отличий между поисковой выдачей для разных пользователей (в приватном режиме) гораздо больше, чем отличий поисковой выдачи в приватном и обычном режиме для одного случайного пользователя (в числовом выражении разница больше, чем в 2 раза).
«контроль за использованием огнестрельного оружия»:
- среднее отличие поисковой выдачи в приватном и обычном режиме для одного и того же пользователя – 1,03
- среднее отличие поисковой выдачи в приватном режиме для разных (случайных) пользователей – 2,89
- среднее отличие поисковой выдачи в приватном режиме для 5 похожих пользователей – 2,65
«иммиграция»:
- среднее отличие поисковой выдачи в приватном и обычном режиме для одного и того же пользователя – 1,8
- среднее отличие поисковой выдачи в приватном режиме для разных (случайных) пользователей – 3,28
- среднее отличие поисковой выдачи в приватном режиме для 5 похожих пользователей – 2,80
«прививки»:
- среднее отличие поисковой выдачи в приватном и обычном режиме для одного и того же пользователя – 2,23
- среднее отличие поисковой выдачи в приватном режиме для разных (случайных) пользователей – 4,97
- среднее отличие поисковой выдачи в приватном режиме для 5 похожих пользователей – 4,25
Приватный режим не такой уж приватный, как кажется большинству пользователей. Обещанная «приватность» сводится лишь к автоматическому удалению кэша, файлов cookies и истории браузера. Приватный режим не анонимен! И наше исследование доказывает, что у Google есть механизмы, необходимые для корректировки поисковой выдаче даже для тех пользователей, которые до сих пор не обзавелись аккаунтом Google (или наоборот уже отказались от его использования). Однако у пользователей должно быть право на анонимность, а поисковая выдача должна быть непредвзятой и объективной.
Результаты и ссылки
Данные исследования открыты и доступны всем желающим. Мы опубликовали их в двух частях: Основные неидентифицируемые данные участников эксперимента и Необработанные данные о результатах поиска.
- Архив duckduckgo-filter-bubble-study-2018_participants.xls содержит инструкции, которые мы рассылали добровольцам, согласившимся принять участие в нашем эксперименте, а также обезличенные данные каждого из его участников.
- В архиве duckduckgo-filter-bubble-study-2018_raw-search-results.xls содержится полная поисковая выдача по каждому из запросов (для приватного и обычного режимов). Результаты представлены по мере их появления на экране пользователя.
Для анализа полученных данных мы написали специальный алгоритм. Его код открыт и также доступен для исследования. Ознакомится с ним можно на сайте GitHub.
Ну а если хотите знать больше о собственной конфиденциальности в интернете, подписывайтесь на наш Twitter или новостную рассылку!
Утка Дэкс,
команда DuckDuckGo