Пиратские методы обучения ИИ
Разработчики активно используют для обучения ИИ данные пользователей без их согласия.
08.05.2024 | Российская газета | Юлия Гуреева
Искусственный интеллект (ИИ) является одним из самых быстроразвивающихся направлений: по данным Grand View Research, до 2030 года темпы роста таких систем составят 37,3% в год. Однако вместе с этим увеличивается число судебных дел против компаний-разработчиков нейросетей, которым постоянно требуется обучать и переобучать свои системы на чужих данных.
Так, восемь американских изданий, в том числе New York Daily News и Denver Post, подали в суд на Microsoft и OpenAI. Они утверждают, что IT-гиганты похитили миллионы их статей, которые защищены авторским правом, без соответствующего разрешения и оплаты, пишет Axios со ссылкой на судебный документ.
Подобные претензии также высказала Американская гильдия авторов и 17 писателей. В сентябре 2023 года они подали групповой иск против OpenAI, якобы использовавшей их книги для обучения ИИ. Позднее, в январе этого года, уже художники обратились в суд, обвинив в аналогичных нарушениях генераторы изображений Midjourney, Stability AI и DeviantArt.
Проблема не обошла стороной и Россию: здесь существуют облачные сервисы, которые помогают организациям извлекать данные из документов, включая паспорта, водительские удостоверения и внутреннюю документацию компаний. При этом некоторые сервисы не скрывают того, что применяют полученные данные в обучении своих нейросетей. В результате уже обычный пользователь, а не крупное медиа, может стать жертвой пиратского метода обучения ИИ, даже не догадываясь об этом.
Наш комментарий:
Михаил Хохолков, INTELLECT, специально для «Российской газеты»:
«Во время условного распознавания документов случаются ситуации, когда ИИ не может правильно разобрать отдельные цифры или слова или просто найти документ на изображении, например, из-за плохого освещения или иных обстоятельств. Сервисы утверждают, что в этом случае они направляют фрагменты документов на краудсорсинговую платформу, где операторы проверяют работу ИИ и в ряде случаев фактически делают за него работу, набирая текст с присланной им фотографии или скана документа», – объяснил руководитель практики «Медиаправо» юридической фирмы INTELLECT, эксперт Центра компетенций по направлению «Персональные данные» Роскомнадзора по УрФО и эксперт рабочей группы по рекламе Аналитического центра при Правительстве РФ Михаил Хохолков.
Такой подход называется human-in-the-loop (HITL). По словам его сторонников, благодаря участию людей минимизируется риск ошибок. При этом оператором-краудсорсером может стать буквально любой человек – для этого достаточно зарегистрироваться в сервисе, добавил собеседник.
Михаил Хохолков также подчеркнул, что обычному пользователю будет сложно узнать, используются ли его чувствительные данные для обучения или дообучения нейросетей, поскольку разработчики стараются скрыть это в целях сохранения авторитета своей компании.
«В настоящее время в согласиях на передачу и обработку персональных данных эта деятельность не регулируется. И пока все происходит по принципу: что не запрещено, то разрешено, не пойман – не вор», – сказал Михаил Хохолков.
Последствия того, что человек стал жертвой разработчиков нейросетей, могут быть разными: к примеру, фотографии из соцсетей могут применяться для создания поддельных изображений с компрометирующим контентом, а использование необезличенных финансовых данных человека ведет к раскрытию банковской тайны, отметил кандидат технических наук и директор направления экспертизы платформы Сфера Дмитрий Чувиков.
«Чтобы обезопасить себя, обычный пользователь должен быть осведомлен о принципах работы нейросетей и их применении, а также соблюдать правила безопасности при использовании таких технологий», - уверен он.
Так, в первую очередь следует обучаться в части права в цифровой сфере для умения защищать свои интересы и принимать обоснованные решения, быть внимательным при предоставлении личной информации, изучать политику конфиденциальности и использования данных при регистрации на новых платформах и регулярно проверять настройки конфиденциальности на всех используемых сервисах.
Также необходимо быть осмотрительным при заключении договоров: внимательно читать, каким организациям и зачем передаются данные, напомнил Михаил Хохолков.
«Если этой информации в согласии нет или она вызывает вопросы, то, если вы бережно относитесь к своим данным, стоит задуматься, подписывать что-то в этот момент или лучше отказаться», - посоветовал он.
Комментарии экспертов юридической фирмы INTELLECT >>