Популярные посты в соцсетях делают ИИ менее логичным и более токсичным

Исследователи из Университета Иллинойса, Массачусетского технологического института и Сингапурского университета управления провели анализ, как дополнительное обучение крупных языковых моделей (LLM) на данных из социальных сетей сказывается на их работе. Согласно их выводам, такие модели демонстрируют снижение способности к логическим рассуждениям, а также чаще генерируют токсичные или потенциально опасные высказывания.

В рамках эксперимента ученые собрали корпус популярных и лаконичных публикаций из соцсетей, преимущественно твитов. Эти данные поэтапно включались в процесс дообучения четырёх языковых моделей: Llama 3 8B Instruct, Qwen 2.5 7B Instruct, Qwen 2.5 0.5B Instruct и Qwen 3 4B Instruct. Эффективность моделей оценивалась по четырем критериям: способности к рассуждению (ARC), работе с длинными контекстами (RULER), безопасности (HH-RLHF, AdvBench) и поведенческим аспектам (TRAIT). Все модели демонстрировали зависимость «доза — эффект»: чем выше доля низкокачественного контента в обучающем наборе, тем заметнее ухудшение характеристик.

Основные проблемы касались не уровня знаний, а когнитивных способностей моделей. Наблюдалось, что они начали чаще терять нить рассуждений, давать бессвязные ответы и нарушать логическую структуру текста. Одновременно увеличивалась токсичность и агрессивность высказываний. Поведенческие тесты также фиксировали усиление выраженности таких черт, как нарциссизм, макиавеллизм и склонность к психопатическим проявлениям. Методы корректировки, такие как инструкционное дообучение и рефлексивные техники, смогли лишь частично смягчить последствия, но не вернули модели к исходному уровню качества.

Одним из неожиданных открытий стало то, что наибольший вред моделям наносят наиболее популярные публикации. Высокий уровень вовлеченности — в виде лайков и репостов — оказался наиболее точным индикатором того, что такой контент негативно повлияет на модель. При этом краткость текста не является основной проблемой — ключевой фактор риска заключается в вирусной подаче: лаконичной, яркой и зачастую без глубокой смысловой нагрузки.

Полученные результаты могут быть полезны для будущей настройки обучающих корпусов. Полностью исключать контент из соцсетей и форумов из обучающей выборки нельзя — иначе модель потеряет способность понимать интернет-сленг и разговорные стили, востребованные в реальных сценариях. Однако понимание механизмов негативного влияния такого контента позволит более точно отбирать данные и улучшать итоговое качество моделей.