Число ботов-скрейперов на базе ИИ резко увеличилось
2025-04-03 14:19
В последнее время исследователи отмечают рост активности генеративных ботов-скрейперов. Согласно последним данным, так называемые «серые боты» всё чаще нацеливаются на веб-приложения.
Недавний отчёт компании Barracuda сообщает о значительном увеличении числа ИИ-ботов, которые активно собирают данные в реальном времени.
Рост «серых» ботов
С декабря 2024 по февраль 2025 года веб-приложения столкнулись с миллионами запросов от генеративных ИИ-ботов, таких как ClaudeBot и Bytespider от TikTok.
В течение 30 дней одно отслеживаемое веб-приложение зафиксировало около 9,7 миллионов запросов ботов, а другое получило более 500 000 запросов всего за один день.
В отличие от традиционных ботов, которые действуют скачкообразно, генеративные боты-скрейперы создают стабильный поток трафика.
Хотя «серые» боты не считаются вредоносными, их деятельность может негативно сказаться на функционировании приложений.
Агрессивный скрейпинг может привести к следующим последствиям:
Перегрузка трафика и нарушение нормальной работы веб-приложений.
Извлечение и использование данных, защищённых авторским правом.
Искажение аналитики веб-сайта, что влияет на принятие бизнес-решений.
Увеличение расходов на облачный хостинг из-за повышенной нагрузки на процессор и увеличенного трафика.
На начало 2025 года самыми активными генеративными ботами-скрейперами являются ClaudeBot и Bytespider.
ClaudeBot от компании Anthropic собирает данные для обучения своей модели ИИ, Claude. Несмотря на агрессивный скрейпинг, Anthropic предоставляет информацию о том, как заблокировать этот бот.
Bytespider — это бот-скрейпер от TikTok, который собирает данные для улучшения своих рекомендательных алгоритмов и рекламных возможностей. По данным отчётов, механизм работы Bytespider остаётся непрозрачным, что затрудняет оценку его воздействия на веб-приложения.
Стратегии защиты
Поскольку «серые» боты стали неотъемлемой частью онлайн-трафика, компаниям необходимо предпринимать проактивные шаги, чтобы минимизировать их влияние на работу веб-приложений. Одним из самых распространённых методов является использование инструмента robots.txt, который сообщает скрейперам, что они должны избегать сбора данных с конкретного сайта. Однако этот метод не имеет юридической силы, и многие боты его игнорируют.
Для более эффективной защиты компании часто используют системы защиты от ботов на базе искусственного интеллекта. Такие системы применяют машинное обучение для обнаружения и блокировки активности ботов в реальном времени, что позволяет существенно снизить влияние скрейперов.
Поскольку дебаты об этических, правовых и коммерческих аспектах использования ботов-скрейперов продолжаются, и пока не существует законов, ограничивающих их работу, компаниям стоит сосредоточиться на обеспечении безопасности для защиты своих данных.