
«Двигатель для воображения»: появление генераторов изображений с ИИ
Дата: 03/12/2022 Тема: AI research.
Интервью с основателем Midjourney Дэвидом Хольцем
ДЖЕЙМС ВИНСЕНТ. 2 августа 2022 г., 18:52 по Гринвичу +2
Произведение искусства, созданное I, постепенно начинает изменять культуру. За последние несколько лет способность систем машинного обучения генерировать изображения из текстовых подсказок резко возросла в плане качества, точности и выразительности. Теперь эти инструменты переходят из исследовательских лабораторий в руки обычных пользователей, где они создают новые визуальные языки выражения и, скорее всего, новые типы проблем.
Считается, что сейчас существует всего несколько десятков первоклассных ИИ для создания изображений. Они сложны и дороги в создании, требуя доступа к миллионам изображений, используемых для обучения системы (она ищет закономерности в изображениях и копирует их), и больших вычислительных затрат (стоимость которых варьируется, но в миллион долларов). ценник не в счет).
Прямо сейчас результаты этих систем в основном рассматриваются как новинка, когда они попадают на обложку журнала или используются для создания мемов. Но пока мы говорим, художники и дизайнеры интегрируют это программное обеспечение в свой рабочий процесс, и в скором времени искусство, созданное и дополненное искусственным интеллектом, будет повсюду. Вопросы об авторских правах (кому принадлежит изображение? Кто его сделал?) и о потенциальных опасностях (таких как предвзятый вывод или дезинформация, созданная ИИ) необходимо решать быстро.
Однако по мере того, как технология станет популярной, одна компания сможет взять на себя некоторую ответственность за ее господство: исследовательская лаборатория из 10 человек под названием Midjourney, которая создает одноименный генератор изображений ИИ, доступ к которому осуществляется через чат-сервер Discord. Хотя это имя может быть незнакомым, вы, вероятно, уже видели результаты работы системы Midjourney в ваших лентах социальных сетей. Чтобы сгенерировать свое собственное, вы просто присоединяетесь к Discord Midjourney, вводите приглашение, и система создает изображение для вас.
«Многие люди спрашивают нас, почему бы вам просто не сделать приложение для iOS, которое сделает вас картинкой?» Об этом в интервью The Verge рассказал основатель Midjourney Дэвид Хольц. «Но люди хотят делать что-то вместе, и если вы делаете это на iOS, вам нужно создать свою собственную социальную сеть. И это довольно тяжело. Так что, если вам нужен собственный социальный опыт, Discord действительно великолепен».
Зарегистрируйте бесплатную учетную запись, и вы получите 25 кредитов со всеми изображениями, созданными в общедоступных чатах. После этого вам придется платить — 10 или 30 долларов в месяц, в зависимости от количества изображений, которые вы хотите сделать, и от того, являются ли они вашими личными или нет.
Однако на этой неделе Midjourney расширяет доступ к своей модели, позволяя любому создать свой собственный сервер Discord с собственным генератором изображений AI. «Мы переходим от вселенной Midjourney к мультивселенной Midjourney», — говорит Хольц. И он считает, что результаты будут невероятными: поток креативности, дополненной искусственным интеллектом, пока остается лишь верхушкой айсберга.
Чтобы узнать больше об амбициях Хольца в отношении Midjourney — о том, почему он строит «двигатель для воображения» и почему он считает, что ИИ больше похож на воду, чем на тигра, — мы позвонили ему для интервью. И, конечно же, мы получили Midjourney, чтобы проиллюстрировать наш разговор.
Это интервью ниже было сжато и слегка отредактировано для ясности.
Было бы здорово начать с небольшого рассказа о себе и Midjourney. Каково ваше прошлое? Как вы попали в эту сцену? А что такое Midjourney — компания, сообщество? Как бы вы это описали?
Итак, меня зовут Дэвид Хольц, и я думаю, что я серийный предприниматель. Вот моя краткая история: в старшей школе у меня был дизайнерский бизнес. Я поступил в колледж на физику по математике. Я работал над докторской диссертацией по гидромеханике, работая в NASA и Max Planck. В какой-то момент я был ошеломлен и отложил все эти дела в сторону. Поэтому я переехал в Сан-Франциско и примерно в 2011 году основал технологическую компанию под названием Leap Motion. И мы продавали аппаратные устройства, которые могли захватывать движение ваших рук, как бы изобретая много жестового интерфейса.
Я основал Leap Motion и руководил ею 12 лет, [но] в конце концов я искал другую среду, а не большую венчурную компанию, и ушел, чтобы основать Midjourney. Сейчас он довольно маленький — нас около 10 человек, у нас нет инвесторов, и мы не очень мотивированы в финансовом отношении. Нас не заставляют что-то продавать или быть публичной компанией. Речь идет только о том, чтобы иметь дом на следующие 10 лет, чтобы работать над крутыми проектами, которые имеют значение — надеюсь, не только для меня, но и для всего мира — и получать удовольствие.
«мы рассматриваем эту технологию как двигатель воображения»
Мы работаем над множеством разных проектов. Это будет широкая и разнообразная исследовательская лаборатория. Но есть темы: такие вещи, как размышления, воображение и координация. И то, чем мы начинаем становиться известными, — это создание изображений. И мы не думаем, что на самом деле это связано с искусством или созданием дипфейков, но — как мы можем расширить творческие способности человеческого вида? И что это значит? Что это значит, когда компьютеры лучше в визуальном воображении, чем 99 процентов людей? Это не значит, что мы перестанем воображать. Машины быстрее людей, но это не значит, что мы перестали ходить. Когда мы перемещаем огромное количество вещей на огромные расстояния, нам нужны двигатели, будь то самолеты, лодки или автомобили. И мы рассматриваем эту технологию как двигатель воображения. Так что это очень позитивная и гуманистическая вещь.
Подсказка: «Подробный технический рисунок, иллюстрирующий революционный «двигатель воображения». Изображение: The Verge / Midjourney.
Многие лаборатории и компании работают над аналогичными технологиями, которые превращают текст в изображения. У Google есть Imagen, у OpenAI есть DALL-E, и есть несколько небольших проектов, таких как Craiyon. Откуда взялась эта технология, каким вы видите ее будущее и чем видение Midjourney отличается от других в этой области?
«Через 10 лет вы сможете купить Xbox с гигантским процессором искусственного интеллекта, а все игры — это мечты».
Итак, было два прорыва [в области ИИ, которые привели к созданию инструментов для создания изображений]. Одно — это понимание языка, а другое — способность создавать образы. И когда вы комбинируете эти вещи, вы можете создавать образы благодаря пониманию языка. Мы видели, как появляются эти технологии, и мы видели тенденции — что они будут лучше создавать изображения, чем люди — и это будет очень быстро. В ближайшие год-два вы сможете делать контент в реальном времени: 30 кадров в секунду, высокое разрешение. Это будет дорого, но возможно. Затем, через 10 лет, вы сможете купить Xbox с гигантским процессором искусственного интеллекта, а все игры — это мечты.
С точки зрения необработанных технологий это всего лишь факты, и от этого никуда не деться. Но с человеческой точки зрения, что, черт возьми, это значит? «Все игры — мечты, все податливо, и у нас будут гарнитуры дополненной реальности» — что, черт возьми, это значит? Так что гуманистический элемент этого непостижим. И программное обеспечение, необходимое для того, чтобы сделать это вещью, которой мы можем владеть, совершенно недоступно, и я думаю, что это наша цель.
Подсказка: «Xbox с гигантским процессором ИИ и все игры — это мечты».
Мы начали тестировать необработанную технологию в сентябре прошлого года и сразу же обнаружили действительно разные вещи. Мы очень быстро обнаружили, что большинство людей не знают, чего они хотят. Вы говорите: «Вот машина, с ней можно представить что угодно — что вы хотите?» И они говорят: «собака». И вы говорите «правда?» и они идут «розовая собака». Итак, вы даете им фотографию собаки, и они говорят «хорошо», а затем идут делать что-то еще.
В то время как если вы поместите их в группу, они станут «собаками», кто-то еще станет «космической собакой», а кто-то еще станет «ацтекской космической собакой», и тогда внезапно люди поймут возможности, и вы Мы создаем расширенное воображение — среду, в которой люди могут учиться и играть с этой новой способностью. Итак, мы обнаружили, что людям действительно нравится представлять вместе, и поэтому мы сделали [Midjourney] социальным. И у нас есть это гигантское сообщество Discord, одно из самых больших Discord, с примерно миллионом человек, которые совместно придумывают вещи в этих общих пространствах.
Видите ли вы этот человеческий коллектив параллельным машинному коллективу? Как своего рода противовес этим системам ИИ?
Ну нет там на самом деле машинного коллектива. Каждый раз, когда вы просите ИИ сделать картинку, он на самом деле не помнит и не знает ничего, что он когда-либо делал. У него нет воли, у него нет целей, у него нет намерения, нет способности рассказывать истории. Все эго, воля и истории — это мы. Это как двигатель. Паровозу деваться некуда, а людям есть куда деваться. Это что-то вроде коллективного разума людей, наделенных сверхмощными технологиями.
«Это новая, интересная, человеческая эстетика, которая, я думаю, выльется в мир».
Внутри сообщества у вас есть миллион человек, делающих изображения, и все они копируют друг друга, и по умолчанию все могут видеть изображения всех остальных. Вы должны доплатить, чтобы вывести сообщество — и обычно, если вы это делаете, это означает, что вы какой-то коммерческий пользователь. Так что все грабят друг друга, и есть вся эта новая эстетика. Это почти как эстетический акселерационизм. И все они бурлят и кружатся, и это не эстетика ИИ. Это новая, интересная, человеческая эстетика, которая, я думаю, выльется в мир.
Подсказка: «Сообщество из миллиона человек, их воображение усилено искусственным интеллектом».
Помогает ли эта открытость сохранять безопасность? Потому что существует много дискуссий о том, что генераторы изображений ИИ используются для создания потенциально опасных вещей, будь то откровенно неприятные образы — кровь и насилие — или дезинформация. Как предотвратить это?
Да, это потрясающе. Когда вы ставите чье-то имя на всех фотографиях, которые они делают, они гораздо более регламентированы в том, как они его используют. Это очень помогает.
Тем не менее, иногда у нас все еще возникали некоторые проблемы, когда, к сожалению, как везде работают социальные сети, вы можете зарабатывать на жизнь, вызывая возмущение, и у некоторых людей есть мотивация приходить в сообщество, платить для конфиденциальности, затем потратьте месяц, пытаясь создать самые возмутительные и ужасающие шокирующие изображения, а затем попытайтесь опубликовать их в Твиттере. Тогда мы должны наступить на это и сказать: «Мы не об этом; это не тот тип сообщества, который нам нужен».
Всякий раз, когда мы видим это, мы топаем его. Мы запрещаем слова, если это необходимо. Мы собрали слова для таких вещей, как фотореалистичная ультракровь, и запретили каждое слово в радиусе мили от него.
Насчет реалистичных лиц — ведь это еще один вектор дезинформации. Создает ли модель реалистичные лица?
Он будет генерировать лица знаменитостей и тому подобное. Но обычно у нас нет — у нас есть стиль и внешний вид по умолчанию, и он артистичен и красив, и трудно оттолкнуть [модель] от этого, то есть вы не можете заставить его сделать дипфейк прямо сейчас. Может быть, если вы потратите 100 часов на попытки, вы сможете найти какое-то правильное сочетание слов, которое сделает его действительно реалистичным, но вам придется очень постараться, чтобы оно выглядело как фотография. И лично я не думаю, что миру нужно больше дипфейков, но ему нужно больше красивых вещей, по этому мы сосредоточены на том, чтобы все выглядело красиво и художественно.
Откуда вы взяли обучающие данные из модели?
Наши тренировочные данные в значительной степени взяты из того же места, что и все остальные, то есть в основном из Интернета. Практически каждая крупная модель ИИ просто извлекает все данные, которые может, весь текст, который может, все изображения, которые может. С научной точки зрения, мы находимся на ранней стадии развития, когда каждый берет все, что может, складывает это в огромный файл и как бы поджигает, чтобы обучить какую-то огромную вещь, и никто еще толком не знает, что именно. данные в куче действительно имеют значение.
«Все пространство обучило, может быть, только две дюжины таких моделей. Так что это экспериментальная наука».
Так, например, наше последнее обновление заставило все выглядеть намного, намного лучше, и вы можете подумать, что мы сделали это, добавив много рисунков [в обучающие данные]. Но мы этого не сделали; мы просто использовали пользовательские данные, основанные на том, что людям нравилось делать [с моделью]. В него не вкладывалось человеческое искусство. Но с научной точки зрения, мы очень, очень рано. Во всем космосе обучено, может быть, всего две дюжины таких моделей. Так что это экспериментальная наука.
Сколько стоило обучение твоего?
Я бы сказал, обучение моделей в этом пространстве, я не могу говорить о наших конкретных затратах, но могу сказать общие вещи. Обучение моделей изображений, вероятно, стоит около 50 000 долларов каждый раз, когда вы делаете это прямо сейчас. И вы никогда не сделаете это правильно с одной попытки, поэтому вам придется использовать три попытки, 10 попыток или 20 попыток — а вам нужно много — так что это складывается. Это дорого. Это больше, чем могли бы потратить большинство университетов, но это не настолько дорого, чтобы вам понадобился миллиард долларов или суперкомпьютер.
Я уверен, что затраты снизятся как на тренировки, так и на бег. Но стоимость его запуска на самом деле довольно высока. Каждое изображение стоит денег. Каждое изображение генерируется на сервере стоимостью 20 000 долларов, и нам приходится арендовать эти серверы поминутно. Я думаю, что никогда не было услуги для потребителей, где они используют тысячи триллионов операций в течение 15 минут, не задумываясь об этом. Вероятно, в 10 раз, я бы сказал, что это больше вычислений, чем что-либо, к чему прикасался ваш средний потребитель. На самом деле это какое-то сумасшествие.
Говоря об обучающих данных, одним из спорных аспектов здесь является вопрос о праве собственности. Действующий закон США гласит, что вы не можете защищать авторские права на произведения искусства, созданные искусственным интеллектом, но мы не совсем знаем, могут ли люди отстаивать авторские права на изображения, используемые в обучающих данных. Художники и дизайнеры усердно работают над созданием определенного стиля, но что произойдет, если их работы теперь смогут копировать боты с искусственным интеллектом? У вас было много дискуссий по этому поводу?
У нас в сообществе много художников, и я бы сказал, что они повсеместно положительно относятся к этому инструменту и думают, что он сделает их намного более продуктивными и значительно улучшит их жизнь. И мы постоянно с ними разговариваем и спрашиваем: «Ты в порядке? Вы чувствуете себя хорошо по этому поводу?» У нас также есть эти рабочие часы, когда я сижу на озвучке в течение четырех часов с примерно 1000 человек и просто отвечаю на вопросы.
Многие известные артисты, использующие платформу, говорят одно и то же, и это действительно интересно. Они говорят: «Я чувствую, что Midjourney — это студент, изучающий искусство, и у него есть свой собственный стиль, и когда вы используете мое имя для создания изображения, это все равно, что просить студента-искусствоведа сделать что-то, вдохновленное моим искусством. И вообще, как художник, я хочу, чтобы люди вдохновлялись тем, что я делаю».
Но там, безусловно, работает огромное предвзятое отношение к самоотбору, потому что артисты, которые активны в Midjourney Discord, обязательно будут теми, кто будет в восторге от этого. А как насчет людей, которые говорят: «Это чушь собачья; Я не хочу, чтобы мое искусство было съедено этими огромными машинами». Вы бы позволили этим людям удалить себя из вашей системы?
У нас еще нет процесса для этого, но мы открыты для этого. Пока я бы сказал, что в нем не так уж много артистов. Это не такой уж глубокий набор данных. И те, кто добился успеха, давали нам ответы типа «на самом деле нас это не пугает». Сейчас это так ново; Я думаю, имеет смысл играть на слух и быть динамичным. Поэтому мы постоянно общаемся с людьми. И на самом деле, запрос номер один, который мы получаем прямо сейчас от художников, заключается в том, что они хотят лучше воровать их стили, чтобы они могли использовать это как часть своего художественного потока еще лучше. И это было для меня удивительно.
Это может быть иначе для других генераторов [изображений AI], потому что они пытаются сделать что-то похожим на то, что нужно. Но у нас больше стиля по умолчанию, так что это действительно похоже на студента-искусствоведа, вдохновленного чем-то другим. И причина, по которой мы это делаем, заключается в том, что у вас всегда есть значения по умолчанию, поэтому, если вы скажете «собака», мы могли бы дать вам фотографию собаки, но это скучно. С человеческой точки зрения, зачем вам это? Просто зайдите в поиск изображений Google. Поэтому мы стараемся, чтобы вещи выглядели художественно.
Это то, о чем вы несколько раз упоминали в нашем разговоре — художественный стиль по умолчанию Midjourney — и я действительно очарован этой идеей, что каждый генератор изображений AI — это свой собственный микрокосм культуры, с i
[Смеется] Это немного специально! Мы пробуем множество вещей, и каждый раз, когда мы пробуем что-то новое, мы визуализируем тысячу изображений. И особого намерения в этом нет. В целом должно выглядеть красиво. Он должен реагировать на конкретные вещи и неясные вещи. Мы определенно хотим, чтобы это не было похоже на фотографии. Мы могли бы сделать реалистичную версию в какой-то момент, но мы не хотели бы, чтобы она была версией по умолчанию. Идеальные фотографии заставляют меня чувствовать себя немного неловко прямо сейчас, хотя я вижу законные причины, по которым вам может понадобиться что-то более реалистичное.
Я думаю, что стиль был бы немного причудливым, абстрактным и странным, и он имеет тенденцию смешивать вещи таким образом, о котором вы даже не подозреваете, способами, которые удивительны и прекрасны. Он имеет тенденцию использовать много синего и оранжевого цветов. У него есть любимые цвета и любимые лица. Если вы дадите ему очень расплывчатые инструкции, он должен перейти к своим фаворитам. Итак, мы не знаем, почему это происходит, но есть конкретное женское лицо, которое он любит рисовать — мы не знаем, откуда оно взялось, из одного из наших 12 обучающих наборов данных — но люди просто называют его «Мисс Путешествие». И есть лицо одного чувака, какое-то квадратное и внушительное, и он тоже появляется какое-то время, но у него пока нет имени. Но это как художник, у которого есть свои лица и цвета.
Подсказка: «Портрет мисс Джорни, написанный маслом».
Говоря об этих типах значений по умолчанию, одна большая проблема в области создания изображений связана с предвзятостью. Есть исследование, которое показывает, что если вы попросите модель изображения ИИ нарисовать генерального директора, генеральный директор всегда будет белым мужчиной, а когда вы попросите его вывести медсестру, медсестра всегда будет женщиной и часто цветным человеком. Как вы справились с этим вызовом? Является ли это большой проблемой для Midjourney или больше беспокоит корпоративные компании, которые хотят монетизировать эти системы?
Ну, Мисс Путешествие определенно больше проблема, чем функция, и сейчас мы работаем над чем-то, что попытается разбить лица и дать вам больше разнообразия. Но есть в этом и минусы. Мол, у нас была версия, где это просто полностью уничтожило Мисс Джорни, но если бы вы действительно хотели, скажем, Арнольда Шварценеггера в роли Дэнни ДеВито, то это полностью уничтожило бы этот запрос [тоже]. И самое сложное — заставить это работать, не уничтожая целые жанры самовыражения. Потому что очень легко иметь переключатель, который увеличивает разнообразие, но трудно заставить его включаться только тогда, когда это необходимо.
Что я могу сказать, так это то, что никогда не было так легко создать изображение с любым разнообразием, которое вы хотите — вы просто используете слово. Знаешь, ты всегда в одном слове от создания — например, я играл с «африканскими волшебниками киберпанка», и это выглядит красиво, и это чертовски круто, и все, что мне нужно, — это одним словом сказать модели, что ты хочу.
Итак, просто чтобы немного отвлечься, вы много говорили о том, что вы не считаете работу, которую вы делаете в Midjourney, скажем так, практичной. Я имею в виду, что это, очевидно, очень практично, но ваша мотивация более абстрактна — об отношениях между людьми и ИИ; о том, как мы можем использовать ИИ таким гуманистическим способом, как вы выразились. Некоторые люди в области искусственного интеллекта склонны думать об этой технологии в самом широком смысле; они сравнивают его с богами, с разумной жизнью. Как вы к этому относитесь?
Какое-то время я пытался понять, «что такое [генератор изображений с искусственным интеллектом в Midjourney]?» Потому что можно сказать, что это двигатель воображения, но есть и кое-что еще. Первое искушение — посмотреть на это через призму искусства. Спросить: похоже ли это на изобретение фотографии? Потому что, когда была изобретена фотография, картины стали еще более странными, потому что любой мог сфотографировать лицо, так зачем мне рисовать эту картину сейчас?
«люди совершенно неправильно понимают, что такое ИИ»
И это так? Нет, это не так. Это определенно более странно. Прямо сейчас это похоже на изобретение двигателя: вы создаете кучу изображений каждую минуту, и вы движетесь по дороге воображения, и это хорошо. Но если вы сделаете еще один шаг в будущее, где вместо четырех изображений за раз вы сделаете 1000 или 10 000, все будет по-другому. И однажды я сделал это: я сделал 40 000 снимков за несколько минут, и вдруг передо мной оказалась эта огромная широта природы — все эти разные существа и среды — и мне понадобилось четыре часа только на то, чтобы пройти через все это, и в этом процессе я чувствовал, что тону. Я чувствовал себя крошечным ребенком, смотрящим в глубокую часть бассейна, зная, что я не умею плавать, и ощущая глубину воды. И вдруг [Midjourney] стал ощущаться не как двигатель, а как поток воды. И это заняло у меня несколько недель, и я думал об этом, думал об этом и понял, что — знаете что? — на самом деле это вода.
Сейчас люди совершенно неправильно понимают, что такое ИИ. Они видят в нем тигра. Тигр опасен. Это может съесть меня. Это противник. В воде тоже есть опасность — в ней можно утонуть, — но опасность текущей реки воды сильно отличается от опасности тигра. Да, вода опасна, но в ней можно плавать, строить лодки, строить плотины и производить электричество. Вода опасна, но она также является движущей силой цивилизации, и нам лучше, как людям, которые знают, как жить с водой и работать с ней. Это возможность. У него нет воли, у него нет злости, и да, в нем можно утонуть, но это не значит, что мы должны запретить воду. И когда вы открываете для себя новый источник воды, это действительно хорошо.
А Midjourney — это новый источник воды?
[Смеется] Да, это немного страшно, когда ты так говоришь.
Я думаю, что мы, все вместе, как вид, открыли новый источник воды, и Midjourney пытается выяснить, хорошо, как мы можем использовать это для людей? Как мы учим людей плавать? Как мы делаем лодки? Как нам это запрудить? Как нам перейти от людей, которые боятся утонуть, к детям в будущем, которые бороздят волны? Мы делаем доски для серфинга, а не воду. И я думаю, что в этом есть что-то глубокое.
Подсказка: «Абстрактная, но подробная иллюстрация, изображающая искусственный интеллект в виде воды: мощную силу, которую можно использовать во благо или во зло».
https://www.theverge.com/2022/8/2/23287173/ai-image-generation-art-midjourney-multiverse-interview-david-holz
|
|
Это статья ТРИЗ, TRIZ, АРИЗ, ARIZ, МОДИФИКАТОР, MODIFIER, Триколор, Спутниковое ТВ.
https://b-b.by/
URL этой статьи:
https://b-b.by//modules.php?name=News&file=article&sid=485
|