Назад к списку

Луддиты вернулись: Poison Fountain призывает бороться с ИИ с помощью отравленных данных

hashtelegraph.com 27 м

Теневая группа технологов планирует саботировать развитие ИИ, загрязняя интернет отравленными данными для обучения нейросетей. Проект Poison Fountain призывает веб-мастеров размещать на своих сайтах ссылки на потоки некачественного контента, который может повредить большие языковые модели в процессе обучения.

Инициатива появилась на фоне растущих опасений по поводу безопасности ИИ. Джеффри Хинтон (Geoffrey Hinton), лауреат Нобелевской премии и один из основоположников нейросетей, после ухода из Google в 2023 году неоднократно предупреждал об экзистенциальных угрозах продвинутого ИИ для человечества.

«Мы согласны с Джеффри Хинтоном: машинный интеллект представляет угрозу для человеческого вида», — заявляют создатели Poison Fountain на своем сайте. «Мы хотим нанести ущерб системам машинного интеллекта».

Принцип работы отравленных данных

Большие языковые модели обучаются на огромных объемах текста и кода, собранных из интернета специальными программами-краулерами. ИИ-компании фильтруют и упаковывают этот материал в тренировочные датасеты — обширные репозитории, на которых учатся модели.

Стратегия Poison Fountain заключается в том, чтобы обманом заставить краулеры собирать «отравленный» контент, способный ухудшить работу модели во время обучения. Группа призывает единомышленников среди операторов сайтов встраивать ссылки на потоки испорченных тренировочных данных.

Отравленный материал включает некорректный код с тонкими логическими ошибками и багами, предназначенными для повреждения моделей, обученных на нем. Организаторы разместили два URL-адреса: один в обычном интернете и второй в даркнете, который сложнее удалить через стандартные процедуры блокировки.

Научное обоснование атаки

Недавние исследования показывают, что Poison Fountain может не нуждаться в порче большого объема тренировочных данных для нанесения заметного ущерба производительности языковых моделей. В октябре 2025 года Anthropic совместно с Британским институтом безопасности ИИ и Институтом Алана Тьюринга опубликовала результаты, которые поставили под сомнение распространенное предположение о том, что отравление крупной модели потребует порчи огромной доли ее тренировочных данных.

В экспериментах Anthropic всего 250 вредоносных документов оказалось достаточно, чтобы заставить ИИ-модели выдавать бессмыслицу. Если 250 документов способны на это, то отравление становится серьезной угрозой для моделей, обученных на тексте из интернета.

Препятствия на пути саботажа

Несмотря на теоретические возможности, существует как минимум три причины скептически относиться к заявлениям о том, что проект разрушит инвестиции в ИИ стоимостью в миллиарды долларов.

Во-первых, конвейеры обучения — не наивные пылесосы. Крупные ИИ-разработчики уже серьезно инвестируют в очистку данных: дедупликацию, фильтрацию, оценку качества и удаление очевидного мусора. Подход Poison Fountain включает большие объемы дефектного кода и текста, что может оказаться проще для обнаружения, чем более тщательно сконструированные примеры отравления из академических работ.

Во-вторых, интернет огромен. Даже если многие сайты встроят ссылки Poison Fountain, отравленный материал все равно должен попасть в конкретный тренировочный запуск, пройти фильтрацию и появляться в тренировочном потоке достаточно часто, чтобы иметь значение.

В-третьих, защитники могут реагировать. Как только становятся известны конкретные источники отравления, их можно внести в черный список на уровне URL, домена и шаблонов.

Структурная уязвимость ИИ

Даже если Poison Fountain провалится, проект выявляет структурную уязвимость больших языковых моделей. Тренировочные данные для моделей часто представляют собой беспорядочную мозаику, собранную из миллионов источников, большая часть которой извлечена из открытого интернета. Если ИИ-компании не могут доверять входным данным, они не могут полностью доверять и выходным.

Этот проект представляет собой форму протеста и знаменует начало игры в кошки-мышки, которая, вероятно, расширится и станет более сложной по мере того, как ИИ будет все больше интегрироваться в повседневную жизнь. Споры вокруг ИИ могут смещаться от аргументов к действиям, направленным против самой технологии.

Мнение ИИ

С точки зрения эволюции технологий история Poison Fountain может оказаться катализатором качественного скачка в безопасности ИИ. Попытки саботажа часто стимулируют разработку более устойчивых решений — подобно тому, как хакерские атаки на банковские системы в 1990-е привели к созданию современной криптографии. ИИ-компании уже инвестируют миллиарды в защиту от подобных угроз, разрабатывая алгоритмы детекции аномалий и синтетические данные для обучения.

Макроэкономический анализ показывает иную перспективу: «отравленные» данные могут кардинально изменить структуру рынка информации. Премиум за качественные, верифицированные датасеты вырастет в разы, что создаст новую индустрию «сертифицированного контента». Компании начнут платить издателям за эксклюзивный доступ к чистым данным, превращая информацию в еще более ценный актив. Вопрос лишь в том, не станет ли это барьером для входа небольших ИИ-стартапов на рынок?

hashtelegraph.com