OpenAI представляет модели искусственного интеллекта DALL · E и CLIP, которые создают и классифицируют изображения

DALL E может создавать изображения из причудливых текстовых описаний, таких как «иллюстрация маленького дайкона в пачке, выгуливающего собаку».

openai, модель, интеллект, dall

Результаты сюрреалистичны и образны

OpenAI представила DALL-E и CLIP, две новые генеративные модели искусственного интеллекта, которые могут генерировать изображения из вашего текста и классифицировать ваши изображения по категориям соответственно. DALL E. это нейронная сеть, которая может генерировать изображения из самых необузданных текстов и описаний изображений, передаваемых в нее, например, «как кресло в форме авокадо» или «точно такая же кошка наверху, как набросок на дно». CLIP использует новый метод обучения для классификации изображений, который должен быть более точным, эффективным и гибким для ряда типов изображений.

Генеративные предварительно обученные модели Transformer 3 (GPT-3) от американской компании AI используют глубокое обучение для создания изображений и текста, похожего на человека. Вы можете дать волю своему воображению, ведь DALL E обучен создавать разнообразные. а иногда и сюрреалистические. изображения в зависимости от вводимого текста. Но модель также вызвала вопросы относительно авторских прав, поскольку DALL-E использует изображения из Интернета для создания своих собственных.

READ  Blackview Tab 8E поставляется в комплекте со съемной клавиатурой по цене от $

AI-иллюстратор DALL E создает необычные изображения

Название DALL E, как вы, возможно, уже догадались, представляет собой портфель художника-сюрреалиста Сальвадора Дали и студии Pixar WALL E. DALL E может использовать ввод текста и изображений для создания необычных изображений. Например, он может создать «иллюстрацию маленького редиса дайкона в пачке, выгуливающего собаку» или «улитку из арфы». DALL E обучен не только генерировать изображения с нуля, но и восстанавливать любое существующее изображение в соответствии с текстом или подсказкой изображения.

Результаты изображения для текстового запроса «улитка из арфы»

GPT-3 от OpenAI. это языковая модель глубокого обучения, которая может выполнять различные задачи по созданию текста с использованием языкового ввода. GPT-3 мог написать рассказ, как человек. Для DALL E лаборатория искусственного интеллекта в Сан-Франциско создала изображение GPT-3, заменив текст изображениями и обучив ИИ завершать полуготовые изображения.

DALL E может рисовать изображения животных или предметов с человеческими характеристиками и разумно комбинировать несвязанные предметы для создания единого изображения. Степень успеха изображений будет зависеть от того, насколько хорошо сформулирован текст. DALL E часто может «заполнить пробелы», когда заголовок подразумевает, что изображение должно содержать определенную деталь, которая явно не указана. Например, текст «жираф из черепахи» или «кресло в форме авакадо» даст удовлетворительный результат.

READ  Телефоны Google Pixel получат обновление от января 2021 года с исправлениями и новейшей технологией исправлений безопасности Android

Обрезка текста и изображений вместе

CLIP (Contrastive Language-Image Pre-training). это нейронная сеть, которая может выполнять точную классификацию изображений на основе естественного языка. Это помогает более точно и эффективно классифицировать изображения по отдельным категориям от «нефильтрованных, сильно различающихся и сильно зашумленных данных». Что отличает CLIP, так это то, что он не распознает изображения из тщательно подобранного набора данных, как это делают большинство существующих моделей визуальной классификации. CLIP прошел обучение по широкому спектру методов контроля естественного языка, доступных в Интернете. Таким образом, CLIP узнает, что изображено на картинке, по подробному описанию, а не по отдельному слову из набора данных.

CLIP можно применить к любому тесту визуальной классификации, указав имена визуальных категорий, которые нужно распознать. Согласно блогу OpenAI, CLIP аналогичен возможностям «нулевого выстрела» GPT-2 и GPT-3.

Такие модели, как DALL E и CLIP, могут оказать значительное влияние на общество. Команда OpenAI заявляет, что они проанализируют, как эти модели связаны с социальными проблемами, такими как экономическое влияние на определенные профессии, возможность предвзятости в результатах модели и долгосрочные этические проблемы, связанные с этой технологией.

READ  Как Установить HD Videobox На Телевизор Sony

Генеративная модель искусственного интеллекта, такая как DALL E, которая выбирает изображения непосредственно из Интернета, может открыть путь к нескольким нарушениям авторских прав. DALL E может регенерировать любую прямоугольную область существующего изображения в Интернете. И люди писали в Твиттере об авторстве и авторских правах на искаженные изображения.

Какой будет самый захватывающий технологический запуск в 2021 году? Мы обсуждали это в Orbital, нашем еженедельном технологическом подкасте, на который вы можете подписаться через Apple Podcasts, Google Podcasts или RSS, загрузить выпуск или просто нажать кнопку воспроизведения ниже.

Чтобы быть в курсе последних технических новостей и обзоров, следите за Гаджетами 360 в. и Новостях Google. Чтобы смотреть самые свежие видео о гаджетах и ​​технологиях, подпишитесь на наш канал на YouTube.

Источник