Число ботов-скрейперов на базе ИИ резко увеличилось

2025-04-03 14:19

В последнее время исследователи отмечают рост активности генеративных ботов-скрейперов. Согласно последним данным, так называемые «серые боты» всё чаще нацеливаются на веб-приложения.

Недавний отчёт компании Barracuda сообщает о значительном увеличении числа ИИ-ботов, которые активно собирают данные в реальном времени.

Рост «серых» ботов

С декабря 2024 по февраль 2025 года веб-приложения столкнулись с миллионами запросов от генеративных ИИ-ботов, таких как ClaudeBot и Bytespider от TikTok.

В течение 30 дней одно отслеживаемое веб-приложение зафиксировало около 9,7 миллионов запросов ботов, а другое получило более 500 000 запросов всего за один день.

В отличие от традиционных ботов, которые действуют скачкообразно, генеративные боты-скрейперы создают стабильный поток трафика.

Хотя «серые» боты не считаются вредоносными, их деятельность может негативно сказаться на функционировании приложений.

Агрессивный скрейпинг может привести к следующим последствиям:

Перегрузка трафика и нарушение нормальной работы веб-приложений.
Извлечение и использование данных, защищённых авторским правом.
Искажение аналитики веб-сайта, что влияет на принятие бизнес-решений.
Увеличение расходов на облачный хостинг из-за повышенной нагрузки на процессор и увеличенного трафика.

На начало 2025 года самыми активными генеративными ботами-скрейперами являются ClaudeBot и Bytespider.

ClaudeBot от компании Anthropic собирает данные для обучения своей модели ИИ, Claude. Несмотря на агрессивный скрейпинг, Anthropic предоставляет информацию о том, как заблокировать этот бот.

Bytespider — это бот-скрейпер от TikTok, который собирает данные для улучшения своих рекомендательных алгоритмов и рекламных возможностей. По данным отчётов, механизм работы Bytespider остаётся непрозрачным, что затрудняет оценку его воздействия на веб-приложения.

Стратегии защиты

Поскольку «серые» боты стали неотъемлемой частью онлайн-трафика, компаниям необходимо предпринимать проактивные шаги, чтобы минимизировать их влияние на работу веб-приложений. Одним из самых распространённых методов является использование инструмента robots.txt, который сообщает скрейперам, что они должны избегать сбора данных с конкретного сайта. Однако этот метод не имеет юридической силы, и многие боты его игнорируют.

Для более эффективной защиты компании часто используют системы защиты от ботов на базе искусственного интеллекта. Такие системы применяют машинное обучение для обнаружения и блокировки активности ботов в реальном времени, что позволяет существенно снизить влияние скрейперов.

Поскольку дебаты об этических, правовых и коммерческих аспектах использования ботов-скрейперов продолжаются, и пока не существует законов, ограничивающих их работу, компаниям стоит сосредоточиться на обеспечении безопасности для защиты своих данных.