Понимание потенциала синтетических данных для искусственного интеллекта

ISO Одним из многих основных моментов недавнего пленарного заседания ISO/IEC по искусственному интеллекту была дискуссия о синтетических данных. Пленарное заседание SC 42 одобрило работу над новым техническим отчетом о синтетических данных в контексте систем искусственного интеллекта.

Синтетические данные относятся к искусственно созданным данным, которые имитируют реальные данные и могут быть получены из реальных данных или сгенерированы исключительно на основе алгоритмов или математических моделей. В некоторых случаях они предназначены для сохранения характеристик и структуры исходных данных при одновременной защите конфиденциальности. Это особенно ценно при работе с конфиденциальными типами данных, такими как медицинские записи или финансовая информация, где правила конфиденциальности и этические соображения ограничивают обмен данными.

Как правило, этот процесс называется анонимизацией, так что любые ссылки на конфиденциальную информацию удаляются. Примеры этого включают размывание (изменение некоторых значений небольшими случайными величинами), чтобы предотвратить идентификацию конкретных лиц.

Синтетические данные также можно использовать для дополнения существующих наборов данных путем создания дополнительных выборок, которые охватывают более широкий спектр сценариев, вариаций или выбросов, или просто для предоставления достаточно большого набора данных для подготовки модели машинного обучения. Это помогает повысить надежность и возможности обобщения моделей искусственного интеллекта.

Важно отметить, что такие данные позволяют исследователям и разработчикам создавать контролируемые и повторяемые эксперименты. Манипулируя параметрами и характеристиками процесса генерации синтетических данных, они могут исследовать различные сценарии и оценивать производительность и поведение моделей искусственного интеллекта в различных условиях.

Методы генерации синтетических данных включают такие методы, как генеративные состязательные сети (GAN), которые включают обучение модели для генерации новых выборок данных, которые очень напоминают распределение исходных данных. В настоящее время наибольший интерес вызывают методы, использующие генеративные предварительно обученные преобразователи (GPTS) и большие языковые модели (LLM), такие как ChatGPT и Google Bard.

Большие модели преобразования текста в изображение могут принимать короткие подсказки на естественном языке в качестве входных данных и использовать эти входные данные для генерации текста и изображений, которые трудно отличить от созданных человеком. Другие подходы включают алгоритмы на основе правил, имитационные модели или методы расширения данных, которые модифицируют существующие выборки данных для создания синтетических вариаций.

Хотя синтетические данные обладают многочисленными преимуществами, важно подтвердить их качество и обеспечить их соответствие реальным данным, которые они призваны представлять. Успех использования синтетических данных зависит от точности и реалистичности, достигнутых при описании статистических закономерностей и взаимосвязей, присутствующих в исходных данных.

LLM представляют ряд проблем в этом отношении, поскольку их ответы не являются полностью детерминированными (одно и то же приглашение может генерировать разные ответы), что затрудняет проверку. Кроме того, эти модели, поскольку они, по сути, предсказывают следующее слово в последовательности, часто “галлюцинируют” и фабрикуют полностью ложную информацию.

Кроме того, необходимо учитывать этические и юридические последствия использования синтетических данных, чтобы избежать потенциальных искажений. Уже существуют проблемы с генеративными моделями, связанные с данными, используемыми для обучения этих моделей. Вопросы включают в себя, нарушает ли это права интеллектуальной собственности и права, связанные с генерируемыми данными, а также частые примеры непреднамеренного появления запатентованных обучающих данных в генерируемых результатах.

Проект SC 42, посвященный синтетическим данным, вероятно, будет направлен на выявление наилучших практик для генерации, оценки и использования синтетических данных в системах искусственного интеллекта. Это может способствовать ответственному и эффективному использованию синтетических данных при одновременном решении проблем конфиденциальности и повышении доступности и разнообразия данных для исследований и разработок в области искусственного интеллекта.

Москва: 8(495)121-0102	Воронеж: 8(473) 300-3372	Краснодар: 8(861) 202-5051	Пермь: 8(342)255-4150	Тюмень: 8(345) 257-9073
Санкт-Петербург: 8(812)748-2493	Екатеринбург: 8(343)237-2593	Красноярск: 8(391) 269-9002	Ростов-на-Дону: 8(863)322-0173	Челябинск: 8(351)799-5752
Владивосток: 8(423) 202-5073	Казань: 8(843)203-9552	Нижний-Новгород: 8(831)280-9795	Самара: 8(846)212-9733	Уфа: 8(347) 200-8475
Волгоград: 8(844) 229-7037	Калининград: 8(401) 279-0017	Новосибирск: 8(383)227-8449	Тольятти: 8(848) 290-3007	Хабаровск: 8(421) 251-6670

Понимание потенциала синтетических данных для искусственного интеллекта

Передача "Эксперт ТВ"

Сертификация

Консалтинг

Обучение

Этапы разработки СМК

Информация

Наши клиенты

Выбрать язык

Контакты

Образцы Сертификатов

Работаем с регионами!

Наши эксперты

Рейтинг Систем

Отзывы Заказчиков

Популярные новости

Популярные статьи