ИИ научился деанонимизировать пользователей по комментариям в социальных сетях

AI-инженер Саймон Лермен и его коллеги представили работу «Large-Scale Online Deanonymization with LLMs», в которой оценили возможности LLM устанавливать личность пользователей по анонимным постам на разных площадках. Эксперименты проводились на данных Hacker News, Reddit, LinkedIn, а также на обезличенных интервью с датасетом Anthropic.

Идея не нова. Еще в начале 2000-х профессор Гарварда Латанья Суини пришла к выводу, что 87% населения США можно идентифицировать только по трем параметрам: почтовому индексу, статье и дате рождения. Но на практике деанонимизация долгое время оставалась трудоемким ручным процессом: данные разбросаны, не структурированы, и собрать из них портрет конкретного человека мог разве что опытный аналитик.

LLM ускоряют и автоматизируют этот процесс, причем делают это экономически эффективно, утверждают Лермэн и его соавторы.

Как это работает

Сначала модель извлекает из комментариев пользователя косвенные сведения. Затем с помощью поиска на основе эмбеддингов (векторных математических «отпечатков» текста) формируется пул из 100 наиболее вероятных кандидатов, и на финальном этапе LLM «размышляет» и выбирает лучшее совпадение.

Для проверки в одном из тестов исследователи отобрали 338 пользователей Hacker News, профили которых содержали ссылку на LinkedIn. После удаления прямых идентификаторов модели предлагалось восстановить соответствие между анонимизированным аккаунтом и реальным человеком. Модель дала правильный ответ в 226 случаях из 338 (67%). При этом точность составила 90%, то есть в тех случаях, когда система вообще выдавала результат, она почти всегда оказывалась права.

В другом эксперименте историю одной учетной записи Reddit искусственно делили по времени и тематическим сообществам. Задачей модели было «сшить» фрагменты назад. Комбинация эмбеддингов и логического анализа значительно превзошла базовые методы сопоставления по метаданным и активности.

По мере увеличения пула кандидатов до десятков тысяч точность снижалась плавно без обвала. Авторы экстраполировали результаты на базы в 100 млн пользователей и пришли к выводу, что при достаточных вычислительных мощностях уже можно «атаковать» большие платформы. А с развитием LLM порог входа будет только снижаться.

В исследовании приводится и настоящий кейс. На датасети обезличенных интервью ученых модель смогла установить личности 9 из 125 участников. Но эталонных данных для данной задачки не было, и результаты проверялись вручную.

Весь эксперимент обошелся примерно в $2000. Стоимость деанонимизации одного профиля от $1 до $4 (правда, это все в экспериментальных условиях, в реальной жизни цифра была бы совсем другой).

Почему это важно

Авторы перечисляют несколько сценариев злоупотреблений. Правительства могут использовать технологию для преследования журналистов и активистов, корпорации – для построения сверхточных рекламных профилей, а злоумышленники – для целевого фишинга и социальной инженерии.

Однако в сети напоминают, что деанонимизация по косвенным признакам известна давно. Часть пользователей указывает на ограниченность экспериментальных условий, а некоторые отмечают, что LLM не создают принципиально новую угрозу, а лишь автоматизируют уже существующие методы.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *