Вспыхивают информационные бунты против искусственного интеллекта

Поддерживается

Устав от того, что компании, занимающиеся искусственным интеллектом, потребляют онлайн-контент без согласия, авторы фанфиков, актеры, компании, занимающиеся социальными сетями, и новостные организации входят в число тех, кто восстает.

Шира Френкель и Стюарт А. Томпсон

Шира Френкель и Стюарт Томпсон сообщают о дезинформации в Интернете и цифровых данных.

Более 20 лет Кит Лоффштадт пишет фанфики, исследующие альтернативные вселенные героев «Звездных войн» и злодеев «Баффи — истребительницы вампиров», и бесплатно делится своими историями в Интернете.

Но в мае г-жа Лоффштадт перестала публиковать свои творения после того, как узнала, что компания по обработке данных скопировала ее истории и ввела их в технологию искусственного интеллекта, лежащую в основе ChatGPT, вирусного чат-бота. Встревоженная, она спрятала свои записи за заблокированной учетной записью.

Г-жа Лоффштадт также помогла в прошлом месяце организовать акт восстания против систем искусственного интеллекта. Вместе с десятками других авторов фанфиков она опубликовала в Интернете поток непочтительных историй, чтобы запутать и запутать службы сбора данных, которые передают работу писателей в технологию искусственного интеллекта.

«Каждый из нас должен сделать все возможное, чтобы показать им, что результаты нашего творчества не предназначены для того, чтобы машины собирали урожай по своему усмотрению», — сказала г-жа Лоффштадт, 42-летняя актриса озвучивания из Южного Йоркшира в Великобритании.

Авторы фанфиков — лишь одна группа, которая сейчас устраивает восстания против систем искусственного интеллекта, поскольку лихорадка вокруг этой технологии охватила Силиконовую долину и весь мир. В последние месяцы компании социальных сетей, такие как Reddit и Twitter, новостные организации, включая The New York Times и NBC News, такие авторы, как Пол Трембле и актриса Сара Сильверман, — все заняли позицию против того, чтобы ИИ поглощал их данные без разрешения.

Их протесты приняли разные формы. Писатели и художники блокируют свои файлы, чтобы защитить свою работу, или бойкотируют определенные веб-сайты, публикующие контент, созданный искусственным интеллектом, в то время как такие компании, как Reddit, хотят взимать плату за доступ к своим данным. В этом году против компаний, занимающихся искусственным интеллектом, было подано как минимум 10 исков, обвиняющих их в обучении своих систем творческой работе художников без их согласия. На прошлой неделе г-жа Сильверман и авторы Кристофер Голден и Ричард Кадри подали в суд на OpenAI, создателя ChatGPT, и других за использование ИИ их работы.

В основе восстаний лежит вновь обретенное понимание того, что онлайн-информация — истории, произведения искусства, новостные статьи, сообщения на досках объявлений и фотографии — может иметь значительную неиспользованную ценность.

Новая волна ИИ, известная как «генеративный ИИ» для текста, изображений и другого контента, который он генерирует, построена на основе сложных систем, таких как большие языковые модели, которые способны создавать человеческую прозу. Эти модели обучаются на множестве всевозможных данных, поэтому они могут отвечать на вопросы людей, имитировать стили письма или создавать комедии и стихи.

Это побудило технологические компании искать еще больше данных для своих систем искусственного интеллекта. Google, Meta и OpenAI по существу использовали информацию со всего Интернета, включая большие базы данных фанфиков, множество новостных статей и сборники книг, большая часть которых была доступна бесплатно в Интернете. На языке технологической индустрии это называлось «очисткой» Интернета.

GPT-3 компании OpenAI, система искусственного интеллекта, выпущенная в 2020 году, охватывает 500 миллиардов «токенов», каждый из которых представляет собой части слов, встречающихся в основном в Интернете. Некоторые модели ИИ охватывают более одного триллиона токенов.

Практика парсинга Интернета имеет давнюю историю и в основном была раскрыта компаниями и некоммерческими организациями, которые это делали. Но компании, которым принадлежали данные, не совсем понимали и не считали это особенно проблематичным. Ситуация изменилась после того, как в ноябре дебютировал ChatGPT, и общественность узнала больше о базовых моделях искусственного интеллекта, лежащих в основе чат-ботов.

«То, что здесь происходит, — это фундаментальная переоценка ценности данных», — сказал Брэндон Дудерштадт, основатель и генеральный директор Nomic, компании, занимающейся искусственным интеллектом. «Раньше считалось, что можно получить пользу от данных, сделав их открытыми для всех и запустив рекламу. Теперь идея заключается в том, что вы блокируете свои данные, потому что вы можете извлечь гораздо большую ценность, если используете их в качестве входных данных для своего ИИ».