DuckDuckGo: Как работает Tracker Radar?

Большинство блокировщиков скрытых рекламных трекеров делятся на два типа: первые основываются на заранее составленных чёрных списках, а вторые используют технологии машинного обучения и автоматически ищут трекеры на сайтах, которые вы посещаете. Но Tracker Radar от DuckDuckGo устроен немного иначе. Так чем же Tracker Radar отличается от конкурентов? Перевод заметки из блога DuckDuckGo.

Для справки:

  • Tracker Radar от DuckDuckGo непрерывно сканирует и анализирует интернет сайты в поисках скрытых рекламных трекеров. Во многих аспектах Tracker Radar существенно опережает конкурентов.
  • Исходный код Tracker Radar открыт, и вы можете использовать наработки DuckDuckGo для создания собственных правил блокировки.
  • Tracker Radar используется как в мобильном приложении DuckDuckGo Privacy Browser, так и в браузерном расширении DuckDuckGo Privacy Essentials.

Как устроенна технология Tracker Radar?

Интернет-сёрфинг напоминает попытку сбежать от собственного прошлого, и купленные на прошлой неделе туфли ещё долго будут преследовать вас в вездесущих рекламных банерах. Онлайн-реклама пока остаётся главным источником дохода почти для любого сайта, и, к сожалению, под большинством рекламных объявлений скрываются десятки трекеров, отслеживающих вашу активность. Но ваши покупки – это лишь вершина айсберга: зачастую рекламным компаниям знают о вас даже то, чего вы и сами о себе не знали.

Скрытым трекерам доступна не только история ваших покупок: они могут получить доступ к информации о вашем местоположении, истории браузера и поисковых запросов. Кроме того, по некоторым косвенным признакам разработчики подобных трекеров могут определить ваш пол, возраст, расу и национальность, привычки, интересы и т. д. Крупные рекламные компании собирают эти данные в единый профиль, а затем продают его тем, кто готов заплатить лучшую цену.

Лучшее, что вы можете сделать в сложившейся ситуации, это установить надёжный блокировщик скрытых рекламных трекеров. Наше недавнее исследование показало, что для большинства активных пользователей сегодня чрезвычайно важна защита приватности, но лишь 19% опрошенных используют специализированные инструменты для борьбы с трекерами. И мы хотим это исправить!

Вот почему в нашем мобильном браузере DuckDuckGo Privacy Browser (доступен на iOS и Android) и браузерном расширении DuckDuckGo Privacy Essentials (доступен для ChromeFirefox и Safari) реализована нативная блокировка скрытых рекламных трекеров. Если вы используете DuckDuckGo, вы можете больше не беспокоиться о защите приватности вне зависимости от типа устройства, которым вы привыкли пользоваться. Блокировка трекеров, приватная поисковая система и умное шифрование трафика – это основы конфиденциальности, которые должны быть доступны абсолютно каждому пользователю.

Начав работу над собственным блокировщиком трекеров, мы быстро поняли, что почти все существующие списки трекеров были составлены вручную, а значит, в большинстве случаев они дано устарели и уж точно не могут считаться исчерпывающими. А хуже всего то, что зачастую такие списки мешают нормальной работе сайтов, что в свою очередь существенно затрудняет их распространение. На то, чтобы исправить эти недостатки у нас ушло около двух лет, но теперь у нас есть собственный блокировщик, основанный на постоянном мониторинге интернет-сайтов. Мы назвали его Tracker Radar. Он создаётся, дополняется и тестируется в автоматическом режиме.

Мы гордимся проделанной работой. И именно поэтому мы открыли исходный код Tracker Radar всему миру. Кроме того, мы также открыли и исходный код Smarter Encryption, отвечающего за шифрование трафика в наших приложениях.

В списках Tracker Radar содержится подробная информация о наиболее распространённых трекерах и особенностях их поведения. Мы знаем, кому принадлежит трекер, насколько он «популярен», использует ли он файлы cookies или цифровые отпечатки. Кроме того, мы отслеживаем также политику конфиденциальности популярных трекеров и их влияние на производительность.

  • Пользователи могут проверить эффективность черного списка Tracker Radar, просто установив наше мобильное приложение или браузерное расширение.
  • Сторонние разработчики могут воспользоваться списками Tracker Radar для создания собственных списков блокировки.
  • Специалисты в области безопасности могут использовать наработки Tracker Radar для изучения распространённости определенных трекеров.

Многим кажется, что сегодня у вас попросту нет способов отстоять свою конфиденциальность. Мы в корне не согласны с этим утверждением и хотим это исправить. Именно поэтому мы и опубликовали исходный код Tracker Radar и Smarter Encryption. Ниже мы постараемся подробнее объяснить, как именно работает Tracker Radar. Информация специфическая, но, возможно, кому-то она покажется интересной.

Как устроен Tracker Radar от DuckDuckGo?

Фактически Tracker Radar – это два объединённых между собой массива данных:

1. Информация о каждом стороннем домене, который подозревается в слежке за пользователями.

Ознакомиться с подробной документацией вы можете здесь. Но в двух словах всё сводится к следующему:

  • prevalence – то, насколько по нашим сведениям распространён данный домен
  • sites – фактическое количество сайтов, на которых мы нашли упоминания данного домена
  • categories – основные причины использования файлов, связанных с данным доменом
  • fingerprinting – насколько вероятно, что данный домен будет использовать идентификацию по цифровому отпечатку
  • cookies – как часто мы замечали, что данный домен устанавливает собственные файлы cookies
  • performance – то, насколько соединение с данным доменом влияет на производительность
  • owner – владелец домена
  • resources – скрипты, скрытые пиксили и другие ресурсы, которые использует данный домен
  • subdomains – поддомены, на которых можно встретить данные ресурсы

2. Информация, связывающая исследуемый домен с другими страницами и сайтами. 

В этом файле перечислены все URL-адреса, которые принадлежат исследуемому домену. Обычно они имеют перекрестные ссылки с родительским доменом и общие сертификаты WHOIS и SSL. Благодаря этому списку мы можем точно определить, что в данном случае исследуемый трекер принадлежит сторонней компании, а не владельцу сайта.

Например, мы обнаружили, что на doubleclick.net ссылается 29 758 сайтов (это примерно 68% от общего числа проверенных нами страниц). Данный домен принадлежит компании Google, которой в свою очередь принадлежат ещё 479 доменов. Другими словами, в 98% случаев любое упоминание doubleclick.net в коде сайта является сторонним трекером.

В целом около 93,2% проверенных нами сайтов так или иначе ссылаются на домены, принадлежашие Google. Это и есть «распространённость» – prevalence.

Как можно использовать Tracker Radar?

1. Если вы простой пользователь, вы можете использовать Tracker Radar в качестве блокировщика трекеров. Например, установив мобильное приложение DuckDuckGo Privacy Browser (для iOS и Android) или браузерное расширение (для ChromeFirefox и Safari).

2. Сторонние разработчики могут создавать собственные списки блокировки, основанные на данных, собранных с помощью Tracker Radar.

Защита приватности постепенно становится одной из наиболее востребованных функций любого браузера, однако в большинстве случаев разработчик ограничиваются лишь блокировкой сторонних cookies и защитой настроек самого браузера. Некоторые браузеры уже начали блокировать сторонние трекеры и попытки идентификации пользователя по цифровым отпечаткам, но зачастую они делают это немного неправильно, оставляя лазейку для многих популярных трекеров (например, для идентификации по IP или для сбора данных об истории браузера).

Tracker Radar блокирует трекеры ещё до того, как они будут загружены, и в большинстве случаев почти никак не влияет на работу самого сайта. Сейчас технология доступна лишь пользователям наших приложений, но нам бы хотелось, чтобы и другие разработчики взяли её на вооружение.

3. Исследователи смогут использовать данные, собранные через Tracker Radar, для того, чтобы изучать распространённость тех или иных трекеров. Например, изучив собранную нами базу, вы смогли бы лично убедится в том, что трекеры Google присутствуют на 85% из 50 тыс. наиболее популярных сайтов, а трекеры Facebook – на 36% популярных сайтов.

Трекеры – распространённость:

  • Google – 85,6%
  • Facebook – 36.2%
  • Adobe – 21.8%
  • Amazon – 21.7%
  • Oracle – 20.3%
  • TowerData – 18.9%
  • AppNexus – 15.9%
  • Rubicon Project – 13.9%

Чем Tracker Radar отличается от других блокировщиков?

Большинство блокировщиков скрытых трекеров можно условно разделить на две категории:

  • Чёрные списки. Обычно их разработкой и поддержкой занимается сообщество энтузиастов. Обновление таких списков происходит вручную.
  • Блокировщики, основанные на технологиях машинного обучения. В этом случае поиск новых трекеров происходит автоматически.

Если составлением чёрных списков занимается сообщество, это влечёт за собой ряд проблем: например, разобраться в том, кто именно добавил конкретный трекер список, когда это произошло и зачем это было нужно, со временем становится почти невозможно. Вот почему списки, созданные вручную, довольно быстро устаревают. В 2018 г. разработчики браузера Brave проверили содержимое наиболее востребованных списков блокировки и обнаружили, что «более 90% строк EasyList по всей видимости вообще не даёт пользователю никаких преимуществ из-за слишком больших размеров и чрезмерного количества уже устаревших правил».

Кроме того, если чёрные списки обновляются вручную, их тяжело масштабировать. Зачастую почти невозможно предугадать, как новый пункт правил повлияет на другие сайты и не будет ли он публиковать с уже существующими правилами. Если же сайт уже успел адаптироваться и изменил подход к рекламе и трекерам, старые правила ещё долго будут висеть в списке «мёртвым грузом».

Tracker Radar работает иначе: он автоматически сканирует популярные сайты, а спустя какое-то время проводит повторную проверку. Это обеспечивает как широкий охват, так и максимальную актуальность чёрного списка. Специальный алгоритм отслеживает, как часто встречается определённый трекер, устанавливает ли он собственные файлы cookies и использует ли API браузера для создания его уникального цифрового отпечатка.

Если же блокировщик автоматически учится блокировать новые трекеры, основываясь на данных, собранных с сайтов, которые вы посещаете, это тоже влечёт за собой ряд проблем. Во-первых, такие блокировщики «натренированы» работать только с теми сайтами, которые вы уже посетили. Если вы откроете сайт, на котором вы никогда не были, блокировщик, вероятно не сумеет распознать спрятанные на нём трекеры. На блокировку нужно определенное время. Во-вторых, если блокировщик «учится» на сайтах, которыми вы регулярно пользуетесь, ему доступна и история вашего браузера, следовательно, сам блокировщик может быть использован для слежки. Так что подобные блокировщики также нуждаются в чёрных списках.

Где найти Tracker Radar?

Данные, собранные с помощью Tracker Radar открыты и доступны любому желающему в соответствии с лицензией Creative Commons Attribution-NonCommercial-ShareAlike 4.0. International license. Исходный код Tracker Radar опубликован на GitHub (Apache 2.0 License).

Мы рады любым отзывам и надеемся, что наши инструменты действительно будут вам полезны. Если хотите использовать наши наработки в коммерческих целях, свяжитесь с нами.

Ну а если хотите знать больше о собственной конфиденциальности в интернете, подписывайтесь на наш Twitter или новостную рассылку!

Утка Дэкс,
команда DuckDuckGo

5 марта 2020 г.

Comment