Новости

Неудачный дебют: как спам и порно проникли в новую GPT-4o

Токены, используемые для разбора текста, содержали множество спамных и порнографических фраз.

14 мая Тяньле Цай, аспирант Принстонского университета, изучающий эффективность вывода в крупных языковых моделях, получил доступ к публичной библиотеке токенов и составил список из 100 самых длинных токенов на китайском языке, используемых моделью для обработки китайских запросов.

Оказалось, что только 3 из них были достаточно распространены, чтобы использоваться в повседневных разговорах; остальные представляли собой слова и выражения, связанные с азартными играми и порнографией. Самый длинный токен длился 10,5 китайских иероглифов и буквально означал «бесплатное японское порнографическое видео для просмотра».