Проблема ориентацииsteemCreated with Sketch.

in RU Steem9 months ago (edited)

d269922f-9324-439a-a888-599ea5995679.jpgИ я не про то, что вы сейчас подумали, а про самую что ни на есть тривиальную геометрическую ориентацию в пространстве, которая у нейросетей , оказывается, вполне себе не детская проблема. Не верите? Ну тогда попробуете сами сгенерировать простейшую картинку типа той, что на заставке.

2f07ae20-d263-4520-932d-8fedb7b653d0.jpgПопробуйте поставить девушек так, что б их лиц не было видно.

bfbfb736-29c9-4dc1-b9db-7afa180da261.jpg Легко и просто двигаясь по улице с обычной камерой, делать вот такие фотки.

8b3032e0-44ae-43be-99c1-5aa8d8b8a15f.jpg Но попытка повторить этот же приём нейросетями упирается в непонимание.
По умолчанию, (а порой мне кажется, что уже по внутреннему убеждению) Сlipdrop stable Doodle AI считает, что если в промпте сказано про "девушку", то обязательно надо показать лицо

829b8e79-f8c8-4f36-b99c-9fbd28358f71.jpg И , к сожалению, лицами дело не заканчивается. Любой нестандартный ракурс воспринимается в штыки: пароход - с кормы, автомобиль - со стороны багажника, даже задняя стенка компьютера.
Если по замыслу кадра , предмет должен быть "поврнут спиной к зрителю" - сеть бомбит. И на просторах инетернета уже полно рендеров с танками, у которх ствол орудия торчит из выхлопной трубы, подводных лодок у которых гребной винт спереди, и прочего всяческого непотребства.

ae2420f7-3f0d-4637-aa69-8a9d7961bbb0.jpg Казалось бы - что проще вот такой картинки?
Но нет же : любой ценой - лицо

38480190-5076-485b-bb92-962a560cae2f.jpg И как вы понимаете, цена как правило - непроходная.

В любой изобразительной технологии присутствует три уровня ориентации пространства:
Первый: Ориентация предметов друг относительно друга в одной сцене
251799ee-9dd5-40db-a466-d42c1317e074.jpg

Второй: ориентация источников света по сцене
d21b1d85-edfb-450a-bdcd-0ec4fd70e6cc.jpg

Третий : ориентация вектора движения , если сцена не статичная
2edf6be7-940d-42e2-b0d4-4067b5337359.jpg

... а статичные сцены, как правило не интересные. Да и не бывают в чистом виде.
0f92e4a7-23a4-4387-8232-33f41a8037c9.jpgДаже если сами модели нечего не делают, всё равно - что-то да происходит.
И не важно: рисуете вы карандашём, снимаете на камеру или делаете 3D-анимацию, все эти три уровня вы непременно учитываете, а главное - управляете ими при помощи соответствующих инструментов.

Но только не в нейросетях. Тут всё по другому.

4b3b59c6-f514-41ba-86d1-9966547191aa.jpg Их возможности динамики приятно впечатляют. Даже с избытком.

4cef57b7-a4e4-4471-9276-0a01dbb4ec06.jpg Чтобы привести в движение сцену достаточно упомянуть в промпте слово "танец".

Слегка по хуже ситуация со светом
00988ddb-5745-4a3d-8fb7-9ec3de8229c2.jpg Просто поставить модель на фоне "хромакей" "циклорама" (как это хорошо работает в реальной студии или виртуальной 3D)- не получится.

65b7d210-d33a-484c-bc00-22bacf79ccab.jpg Модели утрачивают связь с системой координат.

a1ab8e9c-bb3c-4a9c-91cb-d450e82c65d6.jpgИх либо рвёт на части и выкручивает им конечности

7b62eb06-a954-4955-a8c0-91b1571f04ca.jpg Либо плющит по масштабу, что тоже не от хорошей жизни.

b5b947aa-e648-4bc2-a8a0-436034720826.jpgСеть успокаивается, когда в качестве базы назначаются реальные предметы: допустим - плинтус. И это всё потому, что она... вообще не имеет собственного виртуального пространства. Она по-просту не знаете, что такое "объёмный мир" - и сразу строит красивую картинку "как вам нравится".

Нравится то оно конечно нравится...

198961cb-f3ce-4071-8653-cba01667202e.jpgно её вольности в трактовке человеческой анатомии не дают расслабиться.

09299b0f-047b-4acc-bbb3-e1e336dbb1d9.jpg И так, что мы имеем? Свет - камера - движение.... И лицо, которого быть не должно.

Напоминаю в Сlipdrop stable Doodle AI несуществует секции для негативных промптов - "лицо", как и много другое, тут не отменить

c14fa82b-01b4-451a-94e6-5849becefb46.jpg Простую просьбу : "Девочки , отвернитесь," - она не понимает.

27084bf8-c735-4c1a-9edf-e3a334236173.jpg"Не смотрите в камеру" - такой же результат.

153fa9af-7d16-4210-9761-2579ddbdeb25.jpg Модель будет крючить и колбасить, но своего она добъётся, даже покалечившись.

63e79b09-0af7-4322-b319-b74057adcd41.jpgВ какой-то мере членовредительства удаётся избежать, прописывая конечности , но это удлиняет промпт и делает его нестабильным.

d4d29e5f-c40f-4f9f-a248-fad4f33b2528.jpg Генерация ломается и всё равное модель стремится восстановить привычный статус кво.

47167587-3187-42a8-a90c-5dd403158eae.jpg Потом эту расчлёнёнку по всему полю собирай. А дальеше , чьё упрямство победит.

36512f6c-e30d-43ff-85a7-31a6a6ac73e0.jpgЛибо сеть сгенерирует сверх-гибкие, но анатомически всё ещё жизнеспособные модели, не желающие смотреть в ту же сторону, что и зритель

b00f940f-07a3-4127-a77c-5a9a29f17e62.jpg Либо, полный шотдаун, перезагрузка итераций и начниаем всё с начала.

6e98a099-bc80-458f-a5b3-8d4e5933743d.jpg То что вы видите сейчас, это как раз свидетельство того, что моё упрямство как минимум не меньше сетевого: предствленные здесь генерации начинаются где-то от 300-го запроса. Но это ещё не всё. Поняв, что измором меня не взять, сеть предложила другую версию развития событий

63b6a584-a0cf-436d-b658-16d90a394d79.jpg Называется : "ни нашим - ни вашим". Да, модель встала, так как я прошу, но ... курточка одета задом на перёд.

8f034a19-c950-4cd8-b08a-c544dd08c7c0.jpg И на борьбу с таким вызывающим дрескодом тоже ушло немало времени.

c8ce70b7-4d0f-4ab0-beed-e8ef9ea05904.jpg Пришлось опять минимизировать одежду и так, мало-помалу, дело пошло на лад

a41e3458-bc35-418d-9e16-d176d0af772d.jpg За хорошее поведение, одёжка понемножку добавлялась

b51902e3-6318-4ee5-bf33-60734a551880.jpg Добавлялся свет...

174da565-6a32-4a9f-a797-57514d2fb3db.jpg... вариативность сцены...

41097990-853e-4ae5-868b-42464154b5d1.jpg К финишу процесса я мог позволить вполне уверенно масштабировать результат

86781bde-16f2-4c71-9941-d49f4efff89f.jpg Подводя черту , отмечу : да - вертеть моделью, как в обычной 3D-среде или консольной версией STABLE DIFFUSION тут боле-менее можно, но отсутствие древовидной иерархической структуры промпта у чисто браузерного движка - этот процесс сильно затрудняет ,
ОДНАКО!
ae6edc69-f93f-4455-95cb-eec7ff067553.jpgПоскольку это компенсируется высокой скоростью генерации рендеров и их фотографическим качеством (с разрешение 1024 по длинной стороне, кстати), то в принципе к этой беде можно привыкнуть , и даже приноровиться.

. . . . . . . .
The picture is clickable for high resolution
. . . . . . . . .
All images shown here
generated by the Neural Network
Сlipdrop stable Doodle AI
The generation prompt was written by
the author of the post.
Number of iterations 100
Editing Artifacts completed in
Photoshop Online
.

AI art
. . . . . . . . .19a23.jpg. . . . . . . . .
ect.

Sort:  
 9 months ago 

Он, конено ИИ, только с поправкой - Искусственный Имитатор, потому как интеллект это вообще про другое.

 9 months ago (edited)

Да, всё верно. Я избегаю словосочетания "искусственный интеллект", предпочитая более подходящее "нейросети" :)
Однако, как у любой сущности, у этой есть бесполезная сторона и есть сторона полезная. Например , генеративная заливка в последних Фотошопах - штука, без сомнения, полезная. Очень развязывает руки. Я теперь не боюсь испортить кадр, если в него попадает "что-то не то". Думаю о композиции, сюжете, важных деталях. А второстепенные - легко убрать.

IMG_7206.jpg

Вот , например тут, в исходном кадре была куча мусора на переднем плане. Обычное дело на осеннем пляже. И дворники появятся не скоро. Но зачем ждать дворников?

image.png
Один клик мышкой - и мусора не стало.
И вы даже с лупой по пикселам можете разглядывать кадр - а всё равно не найдёте следов постобработки.

Другой пример полезности - интеллектуальное шумоподавление в Lightroom-e .
Без этого плагина я ни за что не смог бы сделать вот такой картинки

image.png

В исходнике - там мрак и трэш.

IMG_61912.jpg
И даже тот факт, что RAW-файл видел цвета, не сильно помогло бы, потому что при их вытягивании неизбежно лезли конские шумы. А тут , нажал кнопочку "интеллектуальное шумоподавление" и через пять минут картинка - хоть под глянец! Так что, я перестал бояться высоких ISO даже на своей нищебродской Canon 2000D с кропом 1,6.
Думаю, тут как и везде: не важно как ты называешь вещь , важно - как ты ею пользуешься.

 9 months ago 

Процесс поэтапной настройки промта настолько залипательный, что я усилием воли отгоняю себя от Миджорни. :)
И меня не оставляет мысль о том, как быстро мир получил столько новых возможностей. А что будет через год? А через три?

 9 months ago 

А что будет через год? А через три?

Народ наиграется и вернётся к своим обычным делам.
Такое было не раз. И не раз ещё будет.
Вспомните ажиотаж по поводу соц-сетей: публика сетьевые романы заводила, тоже оторваться не могла. Но со временем - монетизация/модерация и прочая профанация поставили всё на своё место.
Или взять те же криптовалюты - предрекали чуть ли не глобальный переворот в экономике. По факту - пар в свисток.
А кроме того, засилье "правдоподобных картинок/текстов" вполне возможно заставит людей внимательнее относиться к живому слову и реальным объектам. Ведь не даром же в последние 4 года падает популярность "соц-сетей" и растёт внимание (и что удивительно - доверие!) к обычном у телевизору.

 9 months ago 

Адский труд, 300 итераций. =) Но мучения того стоили, эффектные виды со спины получились. Еще и в юбочках пушистых. ^^ Одень Машу - раздень Машу. :) В обычных любительских фотках виды со спины редкость, больше ценится контакт глазами - сюжет. А спина это, наверное, больше эстетство.

 9 months ago (edited)

В обычных любительских фотках виды со спины редкость, больше ценится контакт глазами - сюжет.

Это у вас oт @ qweriу - остатки шлаков в голове.
:))
В фотографии - хоть любительской, хоть профи - ценится цельность композиции. А кто, куда, на кого смотрит и чем "контактирует" - это уже по сюжету.

Но, отчасти , да - Увы и Ах! - похоже что к алгоритмам нейросетей клоны "квери" руку приложили : заставить персонажей смотреть "по композиции сюжета", а не тупо пялиться а'ля "глазной контакт" - очень не просто.

Меж тем, фотки ведь бывают разные. И "спина" просто пример.
В реальности , вот скажем тут мне надо было сделать кадр, что бы авто на переднем плане смотрелось "сзади"

image.png
Так композиция читается: "Люди приехали к морю покататься"
С камерой в руке - это легко. А вот ИИ таких простых вещей не понимает и машину он развернёт мне "мордой вперёд", что уже совсем не то. А ведь есть же и боле сложные случаи - "чуть-чуть повернуть", "чуть-чуть наклонить"...

Адский труд, 300 итераций.

На работе у меня бывают моменты, когда ничего полезного делать в принципе не возможно. Классика жанра - сидение в Приёмной в ожидании начала совещания. Это "удовольствие" может длиться несколько часов. Так что потыкать малость клавишами - то немногое, что в этой ситуации я могу себе позволить.
А трудится же ИИ , я лишь отбираю результаты:)

 9 months ago 

@qwerrie по доброте же душевной, делился своими наблюдениями. А насколько они верные и подходят ли в данном конкретном случае, забота слушателя. Поэтому мало кому советы действительно помогают. :)

Забавно про машину лицом. =) Селфи почти.

 9 months ago 

@qwerrie по доброте же душевной,

Да, с добротой всё нормально у него :)
Чего не скажешь про опасность паттернов.
"Глазной контакт" без сюжетной цели - просто лубок.

 9 months ago 

Как вы сети одежду описываете? Комплектом?

 9 months ago (edited)

С одеждой мы пока не дружим от слова "совсем".
У SD существует какой-то довольно жёсткий шаблон в этом вопросе, причём шаблон этот огораживает его - ИИ- пространство творчества. Посторонних он внутрь своей ограды не пускает.
Например, если упомянуть "высокие каблуки" - они будет во всех рендерах , независимо от места в промпте. А вот юбка - может внезапно уступить штанам , даже если её "зафиксировать" тремя круглыми скобками, или индексом веса 1,7
Не говоря уже про фасон. "Я художник - я так вижу", мля...
Но "материал" он в целом исполняет: если юбка шерстяная, то она скорей всего такой и будет, если "кожаная", то будет кожа.
Ещё строже он с цветом. Если прописать юбке цвет "голубой", то он и юбку и вообще всё вокруг будет красить в голубой. Ну не прямо конечно "валиком", а сообразно сцене: деревья голубыми не покрасит, но стены - вполне. Эстет, блин - любит что бы всё было "в тон".

Собственно на этом я его и подловил: на эстетстве и "ограде" композиции.
Девочки никак не хотели поворачиваться ко мне спиной, пока я не прописал в промпте "ягодицы" - вот так, чётко и понятно.
"Жопа! Сейчас мне нужна жопа! Решай задачу".
Само собой по умолчанию он это место не покажет : SNFW -фильтр и всё такое, изворачивался , блюрил картинки... В общем всё как всегда.
Но стоило мне уточнить фасон и описание материла юбки - всё встало на место: конечно - юбка , это то, что выгодно показывать со спины!! Это даже ИИ понимает!
Вот так мы и учимся управлению этой машинкой.
:))

 9 months ago 

Полное доверие, однако. Рассказать на что смотреть будешь. :)

 9 months ago 

Это не совсем "доверие", но вполне правдоподобная его симуляция. Всё по-честному: ИИ - рисует мне правдоподобные картинки, в обмен на то, что я пишу ему правдоподобные запросы.
Хе-хе...
:)
Хотя технически - это лишь правильное уточнение.
Возвращаясь к примеру с автомобилем: он откажется делать рендер "машина сзадаи", но вполне правдоподобно нарисует всё как надо по запросу "стопсигналы авто".

Coin Marketplace

STEEM 0.19
TRX 0.13
JST 0.030
BTC 64252.58
ETH 3398.15
USDT 1.00
SBD 2.50