www.b-b.by “лф. волна ¬рем€ работы јдрес: ћинск, ул.  озлова, д.3, оф.3. ѕишите на email  
  Ћогин: ѕароль:
    >>–егистраци€     «абыли пароль?    

 

Imagen беспрецедентный фотореализм...

Imagen беспрецедентный фотореализм × глубокий уровень понимани€ €зыка Google Research, команда Brain.

ћы представл€ем Imagen, модель распространени€ текста в изображение с беспрецедентной степенью фотореализма и глубоким уровнем понимани€ €зыка. Imagen опираетс€ на мощь больших €зыковых моделей преобразовани€ в понимании текста и опираетс€ на силу моделей диффузии в высокоточном создании изображений.

Ќаше ключевое открытие заключаетс€ в том, что универсальные большие €зыковые модели (например, T5), предварительно обученные на текстовых корпусах, на удивление эффективны при кодировании текста дл€ синтеза изображений: увеличение размера €зыковой модели в Imagen значительно повышает как точность выборки, так и выравнивание изображени€ и текста. больше, чем увеличение размера модели диффузии изображени€.

Imagen достигает нового современного балла FID 7,27 в наборе данных COCO, даже не обуча€сь на COCO, и люди-оценщики считают, что образцы Imagen наход€тс€ на одном уровне с самими данными COCO в выравнивании изображени€ и текста.

ƒл€ более глубокой оценки моделей преобразовани€ текста в изображение мы представл€ем DrawBench, всеобъемлющий и сложный эталонный тест дл€ моделей преобразовани€ текста в изображение.

— помощью DrawBench мы сравниваем Imagen с последними методами, включа€ VQ-GAN+CLIP, модели скрытой диффузии и DALL-E 2, и обнаруживаем, что оценщики-люди предпочитают Imagen другим модел€м в параллельных сравнени€х, как с точки зрени€ качества выборки и выравнивание изображени€ и текста.

Imagen Ч это система искусственного интеллекта, котора€ создает фотореалистичные изображени€ из вводимого текста.

¬изуализаци€ Imagen. Imagen использует большой замороженный кодировщик T5-XXL дл€ кодировани€ входного текста во встраивание. ћодель условной диффузии отображает встраивание текста в изображение размером 64×64. Imagen также использует текстовые модели диффузии сверхвысокого разрешени€ дл€ увеличени€ разрешени€ изображени€ до 64×64→256×256 и 256×256→1024×1024.

ћодель большого предварительно обученного €зыка × ћодель каскадной диффузии

глубокое понимание текста → фотореалистична€ генераци€

ќсновные моменты исследовани€ Imagen

ћы показываем, что большие предварительно обученные кодировщики замороженного текста очень эффективны дл€ задачи преобразовани€ текста в изображение.

ћы показываем, что масштабирование размера предварительно обученного кодировщика текста более важно, чем масштабирование размера диффузионной модели.

ћы представл€ем новый пороговый диффузионный сэмплер, который позвол€ет использовать очень большие весовые ориентиры без классификатора.

ћы представл€ем новую эффективную архитектуру U-Net, котора€ более эффективна с точки зрени€ вычислений, пам€ти и быстрее сходитс€.

Ќа COCO мы достигаем нового современного COCO FID 7,27; и оценщики-люди считают, что образцы Imagen не уступают эталонным изображени€м с точки зрени€ выравнивани€ изображени€ и текста.

DrawBench: новый сложный тест

ѕараллельна€ оценка человека.

—истематически провер€йте: композиционность, кардинальность, пространственные отношени€, длинный текст, редкие слова и сложные подсказки. ќценщики-люди решительно предпочитают Imagen другим методам как с точки зрени€ выравнивани€ изображени€ и текста, так и с точки зрени€ точности изображени€.

—овременный текст в изображение

ƒиффузионные модели добились большого успеха в генерации изображений [1, 2, 3, 4].

јвторегрессионные модели [5], GAN [6, 7] VQ-VAE Transformer, основанные на методах [8, 9], добились значительного прогресса в исследовани€х преобразовани€ текста в изображение.

—овсем недавно модели Diffusion были исследованы дл€ генерации текста в изображение [10, 11], включа€ параллельную работу DALL-E 2 [12]. DALL-E 2 использует предварительную диффузию дл€ скрытых CLIP и модели каскадной диффузии дл€ создани€ изображений с высоким разрешением 1024×1024.

ћы считаем, что Imagen намного проще, так как Imagen не требует изучени€ латентного априорного анализа, но при этом достигает лучших результатов как в MS-COCO FID, так и в параллельной оценке человеком на DrawBench.

GLIDE [10] также использует каскадные модели диффузии дл€ преобразовани€ текста в изображение, но Imagen использует более крупные предварительно обученные замороженные €зыковые модели, которые, как мы обнаружили, играют важную роль как дл€ точности изображени€, так и дл€ выравнивани€ изображени€ и текста. XMC-GAN [7] также использует BERT в качестве текстового кодировщика, но мы масштабируем текстовые кодировщики гораздо большего размера и демонстрируем их эффективность. »спользование каскадных моделей диффузии также попул€рно в литературе [13, 14] и успешно используетс€ в модел€х диффузии дл€ создани€ изображений с высоким разрешением [2, 3].

Ќаконец, Imagen €вл€етс€ частью серии работ по преобразованию текста в изображение в Google Research, включа€ родственную модель Parti.

ќграничени€ и вли€ние на общество

—уществует несколько этических проблем, с которыми сталкиваютс€ исследовани€ преобразовани€ текста в изображение в целом. ћы предлагаем более подробное исследование этих проблем в нашей статье и предлагаем краткую версию здесь.

¬о-первых, последующие приложени€ моделей преобразовани€ текста в изображение разнообразны и могут сложным образом вли€ть на общество.

ѕотенциальные риски неправильного использовани€ вызывают опасени€ в отношении ответственного открытого исходного кода кода и демонстраций.

¬ насто€щее врем€ мы решили не выпускать код или публичную демонстрацию. ¬ будущей работе мы изучим структуру ответственной экстернализации, котора€ уравновешивает ценность внешнего аудита с рисками неограниченного открытого доступа.

¬о-вторых, требовани€ к данным дл€ моделей преобразовани€ текста в изображение вынуждают исследователей в значительной степени полагатьс€ на большие, в основном некурируемые наборы данных, извлеченные из »нтернета.

’от€ этот подход позволил в последние годы добитьс€ быстрого прогресса в алгоритмах, наборы данных такого рода часто отражают социальные стереотипы, репрессивные точки зрени€ и уничижительные или иным образом вредные ассоциации с маргинализованными группами идентичности. ’от€ подмножество наших обучающих данных было отфильтровано дл€ удалени€ шума и нежелательного контента, такого как порнографические изображени€ и оскорбительные выражени€, мы также использовали набор данных LAION-400M, который, как известно, содержит широкий спектр неприемлемого контента, включа€ порнографические изображени€, расистские оскорблени€ и вредные социальные стереотипы. Imagen полагаетс€ на текстовые кодировщики, обученные на некурируемых данных веб-масштаба, и, таким образом, наследует социальные предубеждени€ и ограничени€ больших €зыковых моделей.

“аким образом, существует риск того, что Imagen закодировал вредные стереотипы и представлени€, что определ€ет наше решение не выпускать Imagen дл€ публичного использовани€ без дополнительных мер безопасности.

Ќаконец, в то врем€ как была проведена обширна€ работа по аудиту моделей преобразовани€ изображени€ в текст и маркировки изображений дл€ форм социальной предвз€тости, было сравнительно меньше работы над методами оценки социальной предвз€тости дл€ моделей преобразовани€ текста в изображение.  онцептуальный словарь потенциального вреда моделей преобразовани€ текста в изображение и установленные метрики оценки €вл€ютс€ важным компонентом разработки ответственных практик выпуска моделей.

’от€ мы оставл€ем углубленный эмпирический анализ социальных и культурных предубеждений на будущее, наши небольшие внутренние оценки вы€вили несколько ограничений, которые определ€ют наше решение не выпускать нашу модель в насто€щее врем€.

Imagen может столкнутьс€ с опасностью отказа от режимов распределени€ данных, что может еще больше усугубить социальные последстви€ предвз€тости набора данных.

Imagen имеет серьезные ограничени€ при создании изображений, изображающих людей.

Ќаши человеческие оценки показали, что Imagen получает значительно более высокие показатели предпочтени€ при оценке изображений, которые не изображают людей, что указывает на ухудшение точности изображени€.

ѕредварительна€ оценка также предполагает, что Imagen кодирует несколько социальных предубеждений и стереотипов, в том числе общую предвз€тость в отношении создани€ изображений людей с более светлым оттенком кожи и тенденцию к тому, чтобы изображени€, изображающие разные профессии, соответствовали западным гендерным стереотипам.

Ќаконец, даже когда мы фокусируем внимание поколений на люд€х, наш предварительный анализ показывает, что Imagen кодирует р€д социальных и культурных предубеждений при создании изображений действий, событий и объектов.

ћы стремимс€ добитьс€ прогресса в решении некоторых из этих открытых проблем и ограничений в будущей работе. Imagen
воображать Ј иллюстрировать Ј вдохновл€ть

јвторы
* –авный вклад. Ж ќсновной вклад.

„итван —ахариа*, ”иль€м „ан*, —аурабх —аксенаЖ, Ћала ЋиЖ, ƒжей ¬ангЖ, Ёмили ƒентон, —ейед  амь€р —ейед √асемипур, Ѕурку  арагол ј€н, —. —ара ћахдави, –афа √онтихо Ћопес, “им —алиманс, ƒжонатан ’оЖ, ƒэвид ‘лит Ж, ћохаммад Ќорузи*

—пециальна€ благодарность

ћы благодарим Ѕена ѕула за рецензирование нашей рукописи, ранние обсуждени€ и многочисленные полезные комментарии и предложени€ на прот€жении всего проекта. ќсоба€ благодарность  эти ћейер-’еллстерн, ќстину “аранго и —аре Ћасло за помощь в внедрении важных ответственных методов искусственного интеллекта в этот проект.

ћы ценим ценные отзывы и поддержку от Ёлизабет јдкисон, «убина √ахрамани, ƒжеффа ƒина, …онгхуи ¬у и Ёли  оллинза.

ћы благодарны “ому —моллу за разработку вод€ного знака Imagen. ћы благодарим ƒжейсона Ѕолдриджа, ’ана „жана и  евина ћерфи за первоначальные обсуждени€ и отзывы.

ћы признательны ‘реду јлкоберу, ’ибаку јли, ћариан  роук, јарону ƒонсбаху, “алси ƒоши, “оджу ƒьюку, ƒугласу Ёку, ƒжейсону ‘рейденфельдсу, Ѕрайану √абриэлю, ћолли ‘итцћоррис, ƒэвиду ’а, ‘илипу ѕархэму, Ћоре ѕирс, Ёвану –апопорту, Ћорен за их усердную работу и поддержку.

—келли, ƒжонни —оракеру, Ќегару –остамзаде, ¬иджаю ¬асудевану, “рис ¬аркентин, ƒжереми ¬айнштейну и ’ью ”иль€мсу за советы по проекту и помощь в процессе публикации.

ћы благодарим ¬иктора √омеса и Ёрику ћорейру за их посто€нную и важную помощь в распределении ресурсов “ѕ”. ћы также благодарим Ўекуфеха јзизи, ’арриса „ана,  риса ј. Ћи и Ќика ћа за то, что они добровольно посв€тили много времени тестированию DrawBench.

ћы благодарим Aditya Ramesh, Prafulla Dhariwal и Alex Nichol за разрешение использовать образцы DALL-E 2 и предоставление нам образцов GLIDE. ћы благодарны ћэтью ƒжонсону и –ою ‘ростигу за запуск проекта JAX и всей команде JAX за создание такой фантастической системы дл€ высокопроизводительных исследований в области машинного обучени€. ќсоба€ благодарность Durk Kingma, Jascha Sohl-Dickstein, Lucas Theis и команде Toronto Brain за полезные обсуждени€ и потраченное врем€ на визуализацию!

https://imagen.research.google/




–азместил: andrew [03/12/2022]

 
· Ѕольше про
· Ќовость от andrew


—ама€ читаема€ стать€: :
Optus - австралийска€ телекоммуникационна€ компани€.


—редн€€ оценка: 0
ќтветов: 0

ѕожалуйста, проголосуйте за эту статью:

ќтлично
ќчень хорошо
’орошо
Ќормально
ѕлохо



 Ќапечатать текущую страницу Ќапечатать текущую страницу


· √лавна€
· ¬итрина
· ƒобавить статью
· ƒќ— ј ќЅЏя¬Ћ≈Ќ»…
·  онтакт
· ѕоиск по сайту
· —татьи

37 гостей и 0 пользователей.

¬ы јнонимный пользователь. ¬ы можете зарегистрироватьс€, нажав здесь.




Ћогин

ѕароль

Ќе зарегистрировались? ¬ы можете сделать это, нажав здесь.  огда ¬ы зарегистрируетесь, ¬ы получите полный доступ ко всем разделам сайта.

Ј √лавна€
Ј ќЅќ–”ƒќ¬јЌ»≈ ƒЋя ѕ–»®ћј —ѕ”“Ќ» ќ¬ќ√ќ и Ё‘»–Ќќ√ќ “¬




www.onliner.by www.kufar.by www.tut.by 
Ѕелорусский портал, Ќовости Ѕеларуси и мира, 
статьи, комментарии, почта, каталоги, форум
финансы, афиша, работа www.av.by www.yandex.by
„астное торговое унитарное предпри€тие Ѕ≈Ћ—ј“плюс. —видетельство о регистрации є 190991566.
¬ыдано ћ√» , дата выдачи 19.03.2008 г.    ”Ќѕ 190991566.    —ведени€ о розничном торговом объекте включены в “орговый реестр –еспублики Ѕеларусь.
јдрес: ћинск, ул.  озлова, д.3, оф.3.    √ор. тлф./факс   +375 (17) 35-49-777.    A1   +375 (44) 5-8888-77.    Ћайф   +375 (25) 7-88888-7.    ћ“—   +375 (29) 752-44-78.
Copyright (b-b)© 2005 by (b-b)
PHP-Nuke Copyright © 2005 by Francisco Burzi. This is free software, and you may redistribute it under the GPL. PHP-Nuke comes with absolutely no warranty, for details, see the license.
ќткрытие страницы: 0.24 секунды
The Russian localization - project Rus-PhpNuke.com