Ghostery и Cliqz: Как идентифицировать пользователя по его метаданным в Twitter?

Специалисты по безопасности из института Алана Тьюринга и Лондонского университета провели довольно занятный эксперимент: сперва они отобрали 10 тыс. пользователей Twitter и попытались разобраться, по каким данным их можно идентифицировать, а затем написали специальный алгоритм, который с 95% вероятностью сможет найти вас по обрывкам метаданных одного их ваших твиттов. Способов защиты пока не существует. Перевод заметки Cliqz и Ghostery.

Насколько просто идентифицировать пользователя, основываясь лишь на общедоступных данных его Твиттера?

Британские учёные смогли найти конкретного пользователя в группе из 10 тыс. учётных записей Twitter, просто проанализировав его метаданные. Точность идентификации составила 96,7%, а метаданные, которые использовались в исследовании, доступны любому желающему через API сервиса.

Знаете ли вы, что публикуя даже самый короткий твитт, вы передаёте сайту до 144 фрагментов своих метаданных, по которым вас легко идентифицировать? «Вы – это ваши метаданные: Идентификация пользователей социальных сетей с помощью их метаданных» – это результат совместной работы института Алана Тьюринга и Лондонского университета. По заверениям исследователей в каждом твитте, помимо фактического его содержания, содержится около 144 видов сопутствующих метаданных, которые без особых проблем доступны через Twitter API. В этих данных содержится информация об аккаунте, с которого был размещён конкретный твитт, самом сообщении (например, времени, когда оно было опубликовано, количестве просмотров и т. д.), других твиттах, содержащихся в сообщении, прикреплённых к твитту файлах (например, URL-адресах или хэштегах), пользователях, которые упомянуты в сообщении, и т. д. Даже если вы не афишируете свою личность, этой информации вполне достаточно для того, чтобы без особых проблем отследить все ваши твитты и восстановить по фрагментам вашу повседневную жизнь.

Обезличивание данные ничего не изменит

В ходе исследования было написано три независимых друг от друга самообучающихся алгоритма. Каждый из них проанализировал 5 млн. учётных записей пользователей Twitter. Затем исследователи загрузили в систему 14 фрагментов метаданных собственных твиттов (в них содержалась информация о времени создания учётной записи, времени публикации нужного твитта, количестве избранных записей, числе подписок и подписчиков).

Этих данных оказалось достаточно, чтобы алгоритм нашёл конкретного пользователя в группе из 10 тыс. человек с точностью 96,7%. Даже когда учёные намеренно удаляли до 40% метаданных, оставшейся информации было достаточно для того, чтобы идентифицировать пользователя с точностью до 95%. Другими словами, даже если Twitter начнёт обезличивать эти данные, ситуация не изменится: оставшейся информации всё равно будет достаточно для идентификации.

Метаданные знают о вас гораздо больше, чем вы думаете

«Людям же кажется, что поскольку их данные хранятся на удалённом сервере, использовать их для идентификации невозможно. Но это не так!», – объяснила журналистам онлайн-издания Wired один из авторов публикации Беатрис Перес из Лондонского университета. Никто в здравом уме не станет сообщать незнакомцу свой адрес. Но если незнакомец спросит вас, как часто вы включаете или выключаете свет в спальне, вы, возможно ответите. Что в этом такого? Точно также работают и метаданные. «Людям кажется, что всё это не имеет почти никакого значения. А раз так, зачем это скрывать? Но ведь этой информации достаточно, чтобы узнать, когда вы бываете дома», – продолжает Перес. Большинство людей просто не осознаёт, насколько легко идентифицировать их с помощью метаданных.

Исследователи надеются, что их публикация повысит осведомлённость рядовых пользователей о рисках, связанных со сбором и хранением метаданных. Ведь несмотря на то, что исследование касалось лишь сервиса микроблогов Twitter, проблема касается и других сайтов, которые генерируют метаданные с аналогичными характеристиками. Ситуация накаляется, если метаданные доступны любому желающему (например, через API сервиса). В случае с Twitter практически любому злоумышленнику под силу идентифицировать любого пользователя сервиса.

В отличие от большинства компаний Cliqz не хранит никаких ваших данных, о которым вас можно было бы идентифицировать. Это связано с особенностями архитектуры нашего сервиса. Мы убеждены, что это лучшая защита от любых потенциальных утечек.

Бьёрн Грейф,
редактор блога Ghostery и Cliqz

11 июля 2018 г.

Comment