Проблема ориентации
И я не про то, что вы сейчас подумали, а про самую что ни на есть тривиальную геометрическую ориентацию в пространстве, которая у нейросетей , оказывается, вполне себе не детская проблема. Не верите? Ну тогда попробуете сами сгенерировать простейшую картинку типа той, что на заставке.
Попробуйте поставить девушек так, что б их лиц не было видно.
Легко и просто двигаясь по улице с обычной камерой, делать вот такие фотки.
Но попытка повторить этот же приём нейросетями упирается в непонимание.
По умолчанию, (а порой мне кажется, что уже по внутреннему убеждению) Сlipdrop stable Doodle AI считает, что если в промпте сказано про "девушку", то обязательно надо показать лицо
И , к сожалению, лицами дело не заканчивается. Любой нестандартный ракурс воспринимается в штыки: пароход - с кормы, автомобиль - со стороны багажника, даже задняя стенка компьютера.
Если по замыслу кадра , предмет должен быть "поврнут спиной к зрителю" - сеть бомбит. И на просторах инетернета уже полно рендеров с танками, у которх ствол орудия торчит из выхлопной трубы, подводных лодок у которых гребной винт спереди, и прочего всяческого непотребства.
Казалось бы - что проще вот такой картинки?
Но нет же : любой ценой - лицо
И как вы понимаете, цена как правило - непроходная.
В любой изобразительной технологии присутствует три уровня ориентации пространства:
Первый: Ориентация предметов друг относительно друга в одной сцене
Второй: ориентация источников света по сцене
Третий : ориентация вектора движения , если сцена не статичная
... а статичные сцены, как правило не интересные. Да и не бывают в чистом виде.
Даже если сами модели нечего не делают, всё равно - что-то да происходит.
И не важно: рисуете вы карандашём, снимаете на камеру или делаете 3D-анимацию, все эти три уровня вы непременно учитываете, а главное - управляете ими при помощи соответствующих инструментов.
Но только не в нейросетях. Тут всё по другому.
Их возможности динамики приятно впечатляют. Даже с избытком.
Чтобы привести в движение сцену достаточно упомянуть в промпте слово "танец".
Слегка по хуже ситуация со светом
Просто поставить модель на фоне "хромакей" "циклорама" (как это хорошо работает в реальной студии или виртуальной 3D)- не получится.
Модели утрачивают связь с системой координат.
Их либо рвёт на части и выкручивает им конечности
Либо плющит по масштабу, что тоже не от хорошей жизни.
Сеть успокаивается, когда в качестве базы назначаются реальные предметы: допустим - плинтус. И это всё потому, что она... вообще не имеет собственного виртуального пространства. Она по-просту не знаете, что такое "объёмный мир" - и сразу строит красивую картинку "как вам нравится".
Нравится то оно конечно нравится...
но её вольности в трактовке человеческой анатомии не дают расслабиться.
И так, что мы имеем? Свет - камера - движение.... И лицо, которого быть не должно.
Напоминаю в Сlipdrop stable Doodle AI несуществует секции для негативных промптов - "лицо", как и много другое, тут не отменить
Простую просьбу : "Девочки , отвернитесь," - она не понимает.
"Не смотрите в камеру" - такой же результат.
Модель будет крючить и колбасить, но своего она добъётся, даже покалечившись.
В какой-то мере членовредительства удаётся избежать, прописывая конечности , но это удлиняет промпт и делает его нестабильным.
Генерация ломается и всё равное модель стремится восстановить привычный статус кво.
Потом эту расчлёнёнку по всему полю собирай. А дальеше , чьё упрямство победит.
Либо сеть сгенерирует сверх-гибкие, но анатомически всё ещё жизнеспособные модели, не желающие смотреть в ту же сторону, что и зритель
Либо, полный шотдаун, перезагрузка итераций и начниаем всё с начала.
То что вы видите сейчас, это как раз свидетельство того, что моё упрямство как минимум не меньше сетевого: предствленные здесь генерации начинаются где-то от 300-го запроса. Но это ещё не всё. Поняв, что измором меня не взять, сеть предложила другую версию развития событий
Называется : "ни нашим - ни вашим". Да, модель встала, так как я прошу, но ... курточка одета задом на перёд.
И на борьбу с таким вызывающим дрескодом тоже ушло немало времени.
Пришлось опять минимизировать одежду и так, мало-помалу, дело пошло на лад
За хорошее поведение, одёжка понемножку добавлялась
К финишу процесса я мог позволить вполне уверенно масштабировать результат
Подводя черту , отмечу : да - вертеть моделью, как в обычной 3D-среде или консольной версией STABLE DIFFUSION тут боле-менее можно, но отсутствие древовидной иерархической структуры промпта у чисто браузерного движка - этот процесс сильно затрудняет ,
ОДНАКО!
Поскольку это компенсируется высокой скоростью генерации рендеров и их фотографическим качеством (с разрешение 1024 по длинной стороне, кстати), то в принципе к этой беде можно привыкнуть , и даже приноровиться.
The picture is clickable for high resolution
. . . . . . . . .
All images shown here
generated by the Neural Network
Сlipdrop stable Doodle AI
The generation prompt was written by
the author of the post.
Number of iterations 100
Editing Artifacts completed in
Photoshop Online
.
Он, конено ИИ, только с поправкой - Искусственный Имитатор, потому как интеллект это вообще про другое.
Да, всё верно. Я избегаю словосочетания "искусственный интеллект", предпочитая более подходящее "нейросети" :)
Однако, как у любой сущности, у этой есть бесполезная сторона и есть сторона полезная. Например , генеративная заливка в последних Фотошопах - штука, без сомнения, полезная. Очень развязывает руки. Я теперь не боюсь испортить кадр, если в него попадает "что-то не то". Думаю о композиции, сюжете, важных деталях. А второстепенные - легко убрать.
Вот , например тут, в исходном кадре была куча мусора на переднем плане. Обычное дело на осеннем пляже. И дворники появятся не скоро. Но зачем ждать дворников?
Один клик мышкой - и мусора не стало.
И вы даже с лупой по пикселам можете разглядывать кадр - а всё равно не найдёте следов постобработки.
Другой пример полезности - интеллектуальное шумоподавление в Lightroom-e .
Без этого плагина я ни за что не смог бы сделать вот такой картинки
В исходнике - там мрак и трэш.
И даже тот факт, что RAW-файл видел цвета, не сильно помогло бы, потому что при их вытягивании неизбежно лезли конские шумы. А тут , нажал кнопочку "интеллектуальное шумоподавление" и через пять минут картинка - хоть под глянец! Так что, я перестал бояться высоких ISO даже на своей нищебродской Canon 2000D с кропом 1,6.
Думаю, тут как и везде: не важно как ты называешь вещь , важно - как ты ею пользуешься.
Процесс поэтапной настройки промта настолько залипательный, что я усилием воли отгоняю себя от Миджорни. :)
И меня не оставляет мысль о том, как быстро мир получил столько новых возможностей. А что будет через год? А через три?
Народ наиграется и вернётся к своим обычным делам.
Такое было не раз. И не раз ещё будет.
Вспомните ажиотаж по поводу соц-сетей: публика сетьевые романы заводила, тоже оторваться не могла. Но со временем - монетизация/модерация и прочая профанация поставили всё на своё место.
Или взять те же криптовалюты - предрекали чуть ли не глобальный переворот в экономике. По факту - пар в свисток.
А кроме того, засилье "правдоподобных картинок/текстов" вполне возможно заставит людей внимательнее относиться к живому слову и реальным объектам. Ведь не даром же в последние 4 года падает популярность "соц-сетей" и растёт внимание (и что удивительно - доверие!) к обычном у телевизору.
Адский труд, 300 итераций. =) Но мучения того стоили, эффектные виды со спины получились. Еще и в юбочках пушистых. ^^ Одень Машу - раздень Машу. :) В обычных любительских фотках виды со спины редкость, больше ценится контакт глазами - сюжет. А спина это, наверное, больше эстетство.
Это у вас oт @ qweriу - остатки шлаков в голове.
:))
В фотографии - хоть любительской, хоть профи - ценится цельность композиции. А кто, куда, на кого смотрит и чем "контактирует" - это уже по сюжету.
Но, отчасти , да - Увы и Ах! - похоже что к алгоритмам нейросетей клоны "квери" руку приложили : заставить персонажей смотреть "по композиции сюжета", а не тупо пялиться а'ля "глазной контакт" - очень не просто.
Меж тем, фотки ведь бывают разные. И "спина" просто пример.
В реальности , вот скажем тут мне надо было сделать кадр, что бы авто на переднем плане смотрелось "сзади"
Так композиция читается: "Люди приехали к морю покататься"
С камерой в руке - это легко. А вот ИИ таких простых вещей не понимает и машину он развернёт мне "мордой вперёд", что уже совсем не то. А ведь есть же и боле сложные случаи - "чуть-чуть повернуть", "чуть-чуть наклонить"...
На работе у меня бывают моменты, когда ничего полезного делать в принципе не возможно. Классика жанра - сидение в Приёмной в ожидании начала совещания. Это "удовольствие" может длиться несколько часов. Так что потыкать малость клавишами - то немногое, что в этой ситуации я могу себе позволить.
А трудится же ИИ , я лишь отбираю результаты:)
@qwerrie по доброте же душевной, делился своими наблюдениями. А насколько они верные и подходят ли в данном конкретном случае, забота слушателя. Поэтому мало кому советы действительно помогают. :)
Забавно про машину лицом. =) Селфи почти.
Да, с добротой всё нормально у него :)
Чего не скажешь про опасность паттернов.
"Глазной контакт" без сюжетной цели - просто лубок.
Как вы сети одежду описываете? Комплектом?
С одеждой мы пока не дружим от слова "совсем".
У SD существует какой-то довольно жёсткий шаблон в этом вопросе, причём шаблон этот огораживает его - ИИ- пространство творчества. Посторонних он внутрь своей ограды не пускает.
Например, если упомянуть "высокие каблуки" - они будет во всех рендерах , независимо от места в промпте. А вот юбка - может внезапно уступить штанам , даже если её "зафиксировать" тремя круглыми скобками, или индексом веса 1,7
Не говоря уже про фасон. "Я художник - я так вижу", мля...
Но "материал" он в целом исполняет: если юбка шерстяная, то она скорей всего такой и будет, если "кожаная", то будет кожа.
Ещё строже он с цветом. Если прописать юбке цвет "голубой", то он и юбку и вообще всё вокруг будет красить в голубой. Ну не прямо конечно "валиком", а сообразно сцене: деревья голубыми не покрасит, но стены - вполне. Эстет, блин - любит что бы всё было "в тон".
Собственно на этом я его и подловил: на эстетстве и "ограде" композиции.
Девочки никак не хотели поворачиваться ко мне спиной, пока я не прописал в промпте "ягодицы" - вот так, чётко и понятно.
"Жопа! Сейчас мне нужна жопа! Решай задачу".
Само собой по умолчанию он это место не покажет : SNFW -фильтр и всё такое, изворачивался , блюрил картинки... В общем всё как всегда.
Но стоило мне уточнить фасон и описание материла юбки - всё встало на место: конечно - юбка , это то, что выгодно показывать со спины!! Это даже ИИ понимает!
Вот так мы и учимся управлению этой машинкой.
:))
Полное доверие, однако. Рассказать на что смотреть будешь. :)
Это не совсем "доверие", но вполне правдоподобная его симуляция. Всё по-честному: ИИ - рисует мне правдоподобные картинки, в обмен на то, что я пишу ему правдоподобные запросы.
Хе-хе...
:)
Хотя технически - это лишь правильное уточнение.
Возвращаясь к примеру с автомобилем: он откажется делать рендер "машина сзадаи", но вполне правдоподобно нарисует всё как надо по запросу "стопсигналы авто".