Специалисты по безопасности из института Алана Тьюринга и Лондонского университета провели довольно занятный эксперимент: сперва они отобрали 10 тыс. пользователей Twitter и попытались разобраться, по каким данным их можно идентифицировать, а затем написали специальный алгоритм, который с 95% вероятностью сможет найти вас по обрывкам метаданных одного их ваших твиттов. Способов защиты пока не существует. Перевод заметки Cliqz и Ghostery.
Насколько просто идентифицировать пользователя, основываясь лишь на общедоступных данных его Твиттера?
Британские учёные смогли найти конкретного пользователя в группе из 10 тыс. учётных записей Twitter, просто проанализировав его метаданные. Точность идентификации составила 96,7%, а метаданные, которые использовались в исследовании, доступны любому желающему через API сервиса.
Знаете ли вы, что публикуя даже самый короткий твитт, вы передаёте сайту до 144 фрагментов своих метаданных, по которым вас легко идентифицировать? «Вы – это ваши метаданные: Идентификация пользователей социальных сетей с помощью их метаданных» – это результат совместной работы института Алана Тьюринга и Лондонского университета. По заверениям исследователей в каждом твитте, помимо фактического его содержания, содержится около 144 видов сопутствующих метаданных, которые без особых проблем доступны через Twitter API. В этих данных содержится информация об аккаунте, с которого был размещён конкретный твитт, самом сообщении (например, времени, когда оно было опубликовано, количестве просмотров и т. д.), других твиттах, содержащихся в сообщении, прикреплённых к твитту файлах (например, URL-адресах или хэштегах), пользователях, которые упомянуты в сообщении, и т. д. Даже если вы не афишируете свою личность, этой информации вполне достаточно для того, чтобы без особых проблем отследить все ваши твитты и восстановить по фрагментам вашу повседневную жизнь.
Обезличивание данные ничего не изменит
В ходе исследования было написано три независимых друг от друга самообучающихся алгоритма. Каждый из них проанализировал 5 млн. учётных записей пользователей Twitter. Затем исследователи загрузили в систему 14 фрагментов метаданных собственных твиттов (в них содержалась информация о времени создания учётной записи, времени публикации нужного твитта, количестве избранных записей, числе подписок и подписчиков).
Этих данных оказалось достаточно, чтобы алгоритм нашёл конкретного пользователя в группе из 10 тыс. человек с точностью 96,7%. Даже когда учёные намеренно удаляли до 40% метаданных, оставшейся информации было достаточно для того, чтобы идентифицировать пользователя с точностью до 95%. Другими словами, даже если Twitter начнёт обезличивать эти данные, ситуация не изменится: оставшейся информации всё равно будет достаточно для идентификации.
Метаданные знают о вас гораздо больше, чем вы думаете
«Людям же кажется, что поскольку их данные хранятся на удалённом сервере, использовать их для идентификации невозможно. Но это не так!», – объяснила журналистам онлайн-издания Wired один из авторов публикации Беатрис Перес из Лондонского университета. Никто в здравом уме не станет сообщать незнакомцу свой адрес. Но если незнакомец спросит вас, как часто вы включаете или выключаете свет в спальне, вы, возможно ответите. Что в этом такого? Точно также работают и метаданные. «Людям кажется, что всё это не имеет почти никакого значения. А раз так, зачем это скрывать? Но ведь этой информации достаточно, чтобы узнать, когда вы бываете дома», – продолжает Перес. Большинство людей просто не осознаёт, насколько легко идентифицировать их с помощью метаданных.
Исследователи надеются, что их публикация повысит осведомлённость рядовых пользователей о рисках, связанных со сбором и хранением метаданных. Ведь несмотря на то, что исследование касалось лишь сервиса микроблогов Twitter, проблема касается и других сайтов, которые генерируют метаданные с аналогичными характеристиками. Ситуация накаляется, если метаданные доступны любому желающему (например, через API сервиса). В случае с Twitter практически любому злоумышленнику под силу идентифицировать любого пользователя сервиса.
В отличие от большинства компаний Cliqz не хранит никаких ваших данных, о которым вас можно было бы идентифицировать. Это связано с особенностями архитектуры нашего сервиса. Мы убеждены, что это лучшая защита от любых потенциальных утечек.
Бьёрн Грейф,
редактор блога Ghostery и Cliqz