ИИ-боты сканируют даже логи TLS-сертификатов. Любая информация используется для обучения LLM

Страницы:  1

Ответить
 

Professor Seleznov


Согласно статистическому отчёту State of AI Traffic от компании по компьютерной безопасности Human Security, за последний год резко увеличилась активность ИИ-агентов, ботов и ИИ-инструментов в интернете.
Например, трафик от ИИ-агентов увеличился почти в 80 раз (на 7851%), трафик от ИИ-скраперов — на 597%. Весь ИИ-трафик за последний год увеличился на 187%, а в целом он растёт в восемь раз быстрее, чем человеческий.
Труднее всего приходится сайтам, на которых часто выкладывается свежий контент и полезная информация для ИИ-инструментов. Например, сайты магазинов с информацией о товарах, или сайты СМИ. У них процент ботов уже приближается к 90%:
pic
Средний процент ботов-скраперов на сайтах, которые максимально подвержены таким атакам (верхние 10% в выборке)
По состоянию на начало 2026 года в целом ИИ-трафик уже превысил человеческий, так что можно сделать вывод, что ИИ-боты официально захватили интернет.
Количество фейковых аккаунтов во всех сервисах растёт в геометрической прогрессии.
pic
Количество фейковых аккаунтов на одного пользователя
«Интернет в целом был создан с этим очень простым представлением о том, что за экраном компьютера находится человек, и это представление очень быстро меняется», — говорит Стю Соломон, генеральный директор Human Security.
Отчёт основан на данных платформы Human Defense Platform, которая работает у клиентов компании и теоретически способна выявлять автоматизированный трафик.
pic
Хотя этот отчёт не является исчерпывающим, он служит значимой вехой в эпоху ИИ в интернете. Отрасль отслеживает устойчивый рост автоматизированного трафика с момента запуска ChatGPT в 2022 году, а сейчас активность ботов в интернете официально превзошла активность людей.
На конференции SXSW в марте 2026 года гендиректор Cloudflare Мэтью Принс сказал, что до эры ИИ около 20% интернет-трафика составляли боты, и в основном это было связано с веб-краулером Google. Он предсказал, что к 2027 году трафик от ИИ-ботов превысит человеческий, ссылаясь на рост генеративного ИИ и его ненасытную потребность в данных.
Но это произошло раньше — в 2026 году.
Конец открытой Cети
Угроза настолько серьёзна, что сложившееся положение вещей некоторые эксперты называют концом Открытой сети в том виде, в каком мы её знали.
В открытой сети прошлого каждый пользователь мог свободно публиковать контент на широкую аудиторию. Сейчас весь контент немедленно поглощается ИИ-ботами и используется для обучения LLM, которая потом выдаёт пользователям выжимку после дистилляции. В результате «человеческий» трафик на сайты упал катастрофически. В некоторых случаях он составляет малую долю от трафика ИИ-ботов.
pic
Отношение трафика ИИ-ботов и живых пользователей, которые приходят с данных ИИ-сервисов
Посещаемость сайтов в некоторых категориях, таких как технические СМИ, снизилась более чем на 50%.
Издатели пытаются защититься от ботов, перемещая всё больше контента в закрытый платный доступ, блокируя даже Internet Archive — и это ещё больше ослабляет позиции Открытого веба.
Открытые платформы, такие как Википедия, подвергаются атакам ботов, генерирующих ИИ-слоп. Опенсорсные программные проекты с трудом справляются с закрытием уязвимостей, обнаруженных ИИ.
Директивы robots.txt на запрет индексирования повсеместно игнорируются ИИ-компаниями.
Опенсорсные лицензии теперь тоже ничего не значат, потому что они тривиально обходятся с помощью LLM.
Сканирование логов сертификатов
ИИ-боты собирают в интернете любые данные, до которых дотянутся. Они сканируют даже логи TLS-сертификатов, чтобы выявлять новые домены для краулинга.
Как только пользователь регистрирует TLS-сертификат на домен (в данном случае autoconfig.benjojo.uk), на сервер практически мгновенно приходит первый посетитель:
Dec 12 20:43:04 xxxx xxx[719]:
l=debug
m="http request"
pkg=http
httpaccess=
handler=(nomatch)
method=get
url=/robots.txt
host=autoconfig.benjojo.uk
duration="162.176µs"
statuscode=404
proto=http/2.0
remoteaddr=74.7.175.182:38242
tlsinfo=tls1.3
useragent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36; compatible; OAI-SearchBot/1.3; robots.txt; +https://openai.com/searchbot"
referrr=
size=19
cid=19b14416d95
Речь идёт о логах CT (Certificate Transparency), где регистрируются все выданные сертификаты всеми Удостоверяющими центрами.
pic
Отображение в браузере Firefox 149 информации из лога CT о TLS-сертификате, выданном GlobalSign
Инструменты для просмотра логов CT: Живые сотрудники — генераторы контента
Для обучения LLM на рынке сейчас скупается любая информация, которую могут достать дата-брокеры. Например, при банкротстве компаний сейчас можно за большие деньги продать информационный архив с годами внутренней переписки сотрудников между собой, их рабочими файлами и кодом. Раньше такие данные из заброшенных проектов не несли никакой пользы, а сейчас это ценная информация для обучения.
Действующие фирмы загружают в LLM информационные архивы своих сотрудников (чаты из мессенджеров, почта, записи совещаний, рабочие файлы), создавая их «цифровых двойников», которые могут частично продублировать человека в случае его увольнения, см. репозиторий collegue-skill на Github.
pic
Автоматический конвейер оцифровки действующих сотрудников, из репозитория collegue-skill
pic
Форматы экспорта данных для навыка collegue-skill
Даже невербальное поведение (движения руками) — тоже ценная информация для обучения ИИ в отдельных профессиональных областях, поэтому на некоторых заводах все сотрудники теперь работают с видеокамерами на голове:
pic
Топ-менеджеры компаний для лучшего управления фирмой создают своих собственных «цифровых двойников», чтобы контролировать каждого живого сотрудника персонально, поддерживая с ними непрерывный контакт.
Любая информация, сгенерированная живыми людьми (UGC), приобретает дополнительную ценность в наше время, когда ИИ-компании очень жёстко соревнуются между собой, пытаясь опередить остальных в скорости обучения своих языковых моделей. Поэтому живые сотрудники стали сейчас ценными как никогда.
В этих условиях эксперты рекомендуют соблюдать крайнюю осторожность при работе с LLM-сервисами и защищать конфиденциальную информацию от утечки.-Источник
 
Loading...
Error