По чему се повећање величине помоћу вештачке интелигенције разликује од традиционалних метода промене величине?

Вештачка интелигенција повећава скалирање (AI upscaling) предвиђа недостатак детаља високе резолуције из постојећих образаца на слици, уместо да једноставно растеже пикселе као што то раде традиционалне методе попут бикубне интерполације. Ово резултира оштријим и детаљнијим сликама.

На које уобичајене артефакте треба да обратим пажњу када користим надоградњу вештачке интелигенције?

Уобичајени артефакти укључују ореоле око ивица, понављајуће текстурне шаре, превише глатке или воштане површине и текст који се трансформише у „скоро слова“. Важно је пратити ове проблеме како би се осигурао природан резултат.

Зашто лица понекад изгледају превише глатко или нереално након повећања величине?

Лица могу изгледати превише глатко због агресивног уклањања шума и оштрења које може уклонити текстуре попут пора. Да бисте постигли природнији изглед, размислите о смањењу подешавања за уклањање шума и оштрење.

Шта треба да урадим ако моје слике изгледају хрскаво или имају прекомерни шум након коришћења вештачке интелигенције за повећање скале?

Ако ваше слике изгледају хрскаво, покушајте да подесите клизаче за уклањање шума и побољшање детаља. Додавање суптилне зрнатости такође може помоћи да се врати фотографскији осећај.

Како се GAN и CNN модели упоређују у резултатима скалирања вештачке интелигенције?

CNN модели су генерално стабилни и предвидљиви, док GAN модели често пружају оштрије детаље, али ризикују увођење нереалних елемената. Избор између њих зависи од ваше потребе за реализмом у односу на побољшану текстуру.

Да ли је повећање скале помоћу вештачке интелигенције погодно за видео садржај и које изазове представља?

Да, повећање скале помоћу вештачке интелигенције је погодно за видео, али може бити изазовно јер је конзистентност у свим кадровима кључна. Треперење или светлуцање детаља може да одвуче пажњу гледаоцима, па се препоручују специјализоване методе усмерене на видео.

Када није прикладно ослањати се на надоградњу вештачке интелигенције?

Повећање обима помоћу вештачке интелигенције треба користити опрезно у сценаријима са високим улозима, као што су новинарство или форензичка анализа, где је тачност кључна. Најбоље је третирати га као побољшање, а не као дефинитиван доказ, а транспарентност у вези са процесима вештачке интелигенције је неопходна.

Шта треба имати на уму приликом повећања величине јако компресованих слика?

За слике које су јако компресоване, почните са уклањањем артефаката како бисте минимизирали нежељене блокаде. Након тога можете повећати скалу и применити благо изоштравање ако је потребно да бисте одржали детаље без појачавања артефаката компресије.

Како функционише надоградња вештачке интелигенције (AI Upscaling)?

Кратак одговор: Увећање резолуције помоћу вештачке интелигенције функционише тако што се модел тренира на упареним сликама ниске и високе резолуције, а затим се то користи за предвиђање веродостојних додатних пиксела током повећања резолуције. Ако је модел видео сличне текстуре или лица током обуке, може додати убедљиве детаље; ако не, може „халуцинирати“ артефакте попут ореола, воштане коже или треперења у видеу.

Кључне закључке:

Предвиђање: Модел генерише вероватне детаље, а не загарантовану реконструкцију стварности.

Избор модела: CNN мреже су обично стабилније; GAN мреже могу изгледати оштрије, али ризикују да измисле нове функције.

Провера артефаката: Пазите на ореоле, понављајуће текстуре, „скоро слова“ и пластична лица.

Стабилност видеа: Користите временске методе или ћете видети треперење и померање од кадра до кадра.

Употреба са високим улогом: Ако је тачност важна, откријте обраду и третирајте резултате као илустративне.

Како функционише надоградња вештачке интелигенције? Инфографика.

Вероватно сте то видели: сићушна, хрскава слика се претвара у нешто довољно оштро да се одштампа, стримује или убаци у презентацију без гримасе. Осећа се као варање. И - на најбољи начин - некако јесте 😅

Дакле, начин на који функционише вештачка интелигенција (AI Upscaling) своди се на нешто конкретније од „рачунар побољшава детаље“ (таласаста слика) и ближе је „моделу који предвиђа вероватну структуру високе резолуције на основу образаца које је научио из мноштва примера“ (Дубоко учење за суперрезолуцију слика: Анкета). Тај корак предвиђања је цела игра - и зато вештачка интелигенција може изгледати запањујуће... или мало пластично... или као да је вашој мачки нарасло додатно брково.

Чланци које бисте можда желели да прочитате након овог:

🔗 Како функционише вештачка интелигенција
Научите основе модела, података и закључивања у вештачкој интелигенцији.

🔗 Како вештачка интелигенција учи
Погледајте како подаци за обуку и повратне информације побољшавају перформансе модела током времена.

🔗 Како вештачка интелигенција открива аномалије
Разумети основне обрасце и како вештачка интелигенција брзо означава необично понашање.

🔗 Како вештачка интелигенција предвиђа трендове
Истражите методе прогнозирања које уочавају сигнале и предвиђају будућу потражњу.

Како функционише надоградња вештачке интелигенције: основна идеја, речено свакодневним речима 🧩

Повећање резолуције значи повећање: више пиксела, већа слика. Традиционално повећање резолуције (као што је бикубично) у основи растеже пикселе и изглађује прелазе (бикубична интерполација). У реду је, али не може да измисли нове детаље - само интерполира.

Повећање резолуције помоћу вештачке интелигенције покушава нешто смелије (тј. „супер-резолуција“ у свету истраживања) (Дубоко учење за супер-резолуцију слика: Анкета):

Гледа улаз ниске резолуције
Препознаје шаре (ивице, текстуре, црте лица, потезе текста, ткање тканине…)
Предвиђа како би требало да изгледа верзија веће резолуције
Генерише додатне податке пиксела који одговарају тим обрасцима

Не „савршено вратити стварност“, већ „направити веома веродостојну претпоставку“ (Суперрезолуција слике коришћењем дубоких конволуционих мрежа (SRCNN)). Ако вам то звучи помало сумњиво, нисте у праву - али то је и разлог зашто тако добро функционише 😄

И да, то значи да је повећање скале помоћу вештачке интелигенције у основи контролисана халуцинација... али на продуктиван начин који поштује пикселе.

Шта чини добру верзију надоградње вештачке интелигенције? ✅🛠️

Ако процењујете вештачку интелигенцију (или унапред подешено подешавање), ево шта је обично најважније:

Опоравак детаља без прекувања.
Добро скалирање додаје хрскавост и структуру, а не хрскави шум или лажне поре.
Дисциплина на ивицама
Чисте линије остају чисте. Лоши модели чине да се ивице климају или им се стварају ореоли.
Реализам текстуре
Коса не би требало да постане потез четкице. Цигла не би требало да постане печат са понављајућим узорком.
Руковање шумом и компресијом.
Много свакодневних слика се претвара у JPEG формат до смрти. Добар алат за повећање скале не појачава ту штету (Real-ESRGAN).
Свест о лицима и тексту
Лица и текст су места где се најлакше уочавају грешке. Добри модели се према њима опходе нежно (или имају специјализоване режиме).
Конзистентност у свим кадровима (за видео)
Ако детаљи трепере од кадра до кадра, ваше очи ће вриштати. Повећање скале видеа живи или умире временском стабилношћу (BasicVSR (CVPR 2021)).
Контроле које имају смисла
Желите клизаче који се пресликавају на стварне резултате: уклањање шума, уклањање замућења, уклањање артефаката, задржавање зрна, оштрење… практичне ствари.

Тихо правило које важи: „најбоље“ повећање величине је често оно које једва приметите. Само изгледа као да сте од почетка имали бољу камеру 📷✨

Табела за поређење: популарне опције за надоградњу вештачке интелигенције (и за шта су добре) 📊🙂

Испод је практично поређење. Цене су намерно нејасне јер се алати разликују по лиценци, пакетима, трошковима рачунарства и свим тим забавним стварима.

Алат / Приступ	Најбоље за	Вибрација цена	Зашто функционише (отприлике)
Уређаји за надоградњу десктопа у стилу Топаз (Топаз Фото, Топаз Видео)	Фотографије, видео, једноставан радни процес	Плаћено	Јаки општи модели + пуно подешавања, углавном „само раде“..
Функције типа Adobe „Super Resolution“ (Adobe Enhance > Super Resolution)	Фотографи који су већ у том екосистему	Претплата	Реконструкција са чврстим детаљима, обично конзервативна (мање драме)
Real-ESRGAN / ESRGAN варијанте (Real-ESRGAN, ESRGAN)	Уради сам, програмери, групни послови	Бесплатно (али дуготрајно)	Одлично за детаље текстуре, може бити љуто на лицу ако нисте пажљиви
Режими скалирања засновани на дифузији (SR3)	Креативни рад, стилизовани резултати	Мешовито	Може да створи прелепе детаље - такође може да измисли глупости, тако да... да
Програми за надоградњу квалитета у играма (DLSS/FSR-стил) (NVIDIA DLSS, AMD FSR 2)	Играње и рендеровање у реалном времену	У пакету	Користи податке о кретању и научене претходнике - глатко побољшање перформанси 🕹️
Услуге надоградње у облаку	Практичност, брзе победе	Плаћање по коришћењу	Брзо + скалабилно, али жртвујете контролу, а понекад и суптилност
Видео фокусирани вештачки апскелери (BasicVSR, Topaz Video)	Стари снимци, аниме, архива	Плаћено	Временски трикови за смањење треперења + специјализовани видео модели
Увећање резолуције за „паметни“ телефон/галерију	Неформална употреба	Укључено	Лагани модели подешени за задовољавајући резултат, а не за савршенство (и даље практични)

Признање о необичности форматирања: „Плаћено“ ради много посла у тој табели. Али схватате поенту 😅

Велика тајна: модели уче мапирање од ниске до високе резолуције 🧠➡️🖼️

У сржи већине надоградњи вештачке интелигенције је подешавање надгледаног учења (Суперрезолуција слике коришћењем дубоких конволуционих мрежа (SRCNN)):

Почните са сликама високе резолуције („истина“)
Смањите њихов узорак на верзије ниске резолуције („улаз“)
Обучите модел да реконструише оригиналну високу резолуцију из ниске резолуције

Временом, модел учи корелације као што су:

„Ова врста замућења око ока обично припада трепавицама“
„Овај кластер пиксела често указује на серифни текст“
„Овај градијент ивице изгледа као линија крова, а не као случајна бука“

Не ради се о памћењу одређених слика (у једноставном смислу), већ о учењу статистичке структуре (Дубоко учење за суперрезолуцију слика: Анкета). Замислите то као учење граматике текстура и ивица. Не о поетској граматици, више као... ИКЕА граматика приручника 🪑📦 (неспретна метафора, али довољно слична).

Основне ствари: шта се дешава током закључивања (када се скалира) ⚙️✨

Када унесете слику у AI upscaler, обично постоји цевовод попут овог:

Претходна обрада
- Конвертујте простор боја (понекад)
- Нормализујте вредности пиксела
- Подели слику на делове ако је велика (провера реалности VRAM-а 😭) (Real-ESRGAN репозиторијум (опције плочица))
Екстракција карактеристика
- Рани слојеви детектују ивице, углове, градијенте
- Дубљи слојеви откривају обрасце: текстуре, облике, компоненте лица
Реконструкција
- Модел генерише мапу карактеристика веће резолуције
- Затим то претвара у стварни пикселни излаз
Накнадна обрада
- Опционо оштрење
- Опционо уклањање шума
- Опционо сузбијање артефаката (звоњење, ореоли, блокада)

Један суптилни детаљ: многи алати повећавају величину плочица, а затим стапају спојеве. Одлични алати скривају границе плочица. Па, алати остављају бледе трагове мреже ако зажмурите. И да, зажмурићете, јер људи воле да испитују ситне несавршености при зуму од 300% као мали гремлини 🧌

Главне породице модела које се користе за надоградњу вештачке интелигенције (и зашто се осећају другачије) 🤖📚

1) Суперрезолуција заснована на CNN-у (класични радни коњ)

Конволуционе неуронске мреже су одличне за локалне обрасце: ивице, текстуре, мале структуре (Суперрезолуција слике коришћењем дубоких конволуционих мрежа (SRCNN)).

Предности: брз, стабилан, мање изненађења
Мане: може изгледати мало „обрађено“ ако се јако притисне

2) Надоградња заснована на GAN-у (ESRGAN-стил) 🎭

GAN-ови (генеративне адверзарне мреже) обучавају генератор да производи слике високе резолуције које дискриминатор не може да разликује од стварних (генеративне адверзарне мреже).

Предности: упечатљиви детаљи, импресивна текстура
Мане: могу измислити детаље којих није било - понекад погрешно, понекад језиво (SRGAN, ESRGAN)

GAN вам може пружити ту запањујућу оштрину. Такође може вашем портрету дати додатну обрву. Зато… бирајте своје битке 😬

3) Повећање скале засновано на дифузији (креативни џокер) 🌫️➡️🖼️

Дифузиони модели уклањају шум корак по корак и могу се водити да би се произвели детаљи високе резолуције (SR3).

Предности: може бити невероватно добар у уверљивим детаљима, посебно за креативни рад
Мане: може се удаљити од оригиналног идентитета/структуре ако су подешавања агресивна (SR3)

Овде се „увећање скале“ почиње стапати са „поновним осмишљавањем“. Понекад је то управо оно што желите. Понекад није.

4) Повећање резолуције видеа са временском конзистентношћу 🎞️

Повећање скале видеа често додаје логику која препознаје покрете:

Користи суседне фрејмове за стабилизацију детаља (BasicVSR (CVPR 2021))
Покушава да избегне треперење и пузање артефаката
Често комбинује суперрезолуцију са уклањањем шума и деинтерлејсингом (Топаз Видео)

Ако је повећање скале слике као рестаурација једне слике, повећање скале видеа је као рестаурација флипбука без промене облика носа лика на свакој страници. Што је... теже него што звучи.

Зашто повећање скале помоћу вештачке интелигенције понекад изгледа лажно (и како то препознати) 👀🚩

Увећање скале помоћу вештачке интелигенције не успева на препознатљиве начине. Када једном научите обрасце, видећете их свуда, као што је куповина новог аутомобила и одједном примећујете тај модел на свакој улици 😵💫

Уобичајене приче:

Депилација лица воском (превише уклањања шума + заглађивања)
Преоштрени ореоли око ивица (класична територија „превишења“) (бикубична интерполација)
Понављајуће текстуре (зидови од цигле постају копирани и налепљени обрасци)
Хрскави микроконтраст који вришти „алгоритам“
Изобличавање текста где слова постају скоро слова (најгора врста)
Померање детаља где се мале карактеристике суптилно мењају, посебно у дифузионим радним процесима (SR3)

Замршен део: понекад ови артефакти изгледају „боље“ на први поглед. Ваш мозак воли оштрину. Али после тренутка, делује... чудно.

Добра тактика је да зумирате и проверите да ли изгледа природно на нормалној удаљености гледања. Ако изгледа добро само при зуму од 400%, то није победа, то је хоби 😅

Како функционише надоградња вештачке интелигенције: страна обуке, без математичке главобоље 📉🙂

Обука модела супер резолуције обично укључује:

Упарени скупови података (улаз ниске резолуције, циљ високе резолуције) (Суперрезолуција слике коришћењем дубоких конволуционих мрежа (SRCNN))
Функције губитака које кажњавају погрешне реконструкције (SRGAN)

Типичне врсте губитака:

Губитак пиксела (L1/L2)
Подстиче тачност. Може произвести мало меке резултате.
Перцептивни губитак
Упоређује дубље карактеристике (као што је „да ли ово изгледа слично“) уместо тачних пиксела (Перцептивни губици (Џонсон и др., 2016)).
Супарнички губитак (GAN)
Подстиче реализам, понекад по цену дословне тачности (SRGAN, Генеративне супарничке мреже).

Постоји стално надметање:

Учините га верним оригиналу
у односу на
Учините га визуелно пријатним

Различити алати се налазе на различитим местима у том спектру. И можда ћете преферирати један у зависности од тога да ли рестаурирате породичне фотографије или припремате постер где је „леп изглед“ важнији од форензичке тачности.

Практични токови рада: фотографије, стари скенирани материјали, аниме и видео 📸🧾🎥

Фотографије (портрети, пејзажи, фотографије производа)

Најбоља пракса је обично:

Прво благо уклањање шума (ако је потребно)
Луксузно са конзервативним окружењем
Додајте зрно ако вам се чини да је превише глатко (да, стварно)

Житарице су као со. Превише их упропасти вечеру, али ниједна не може бити мало бљутава 🍟

Стари скенирани снимци и јако компресоване слике

Ово је теже јер модел може третирати блокове компресије као „текстуру“.
Пробајте:

Уклањање или деблокирање артефаката
Затим надоградња
Затим лагано оштрење (не превише… Знам, сви то кажу, али ипак)

Аниме и линијска уметност

Линијска уметност има следеће користи:

Модели који одржавају чисте ивице
Смањена халуцинација текстуре
. Увећање скале у анимеу често изгледа одлично јер су облици једноставнији и доследни. (Срећно.)

Видео

Видео додаје додатне кораке:

Уклањање шума
Деинтерлејсовање (за одређене изворе)
Луксузно
Временско изглађивање или стабилизација (BasicVSR (CVPR 2021))
Опционо поновно уношење зрна ради кохезије

Ако прескочите временску конзистентност, добићете то треперење детаља. Када га једном приметите, не можете га не видети. Као шкрипава столица у тихој соби 😖

Избор подешавања без превише нагађања (мали шалабар) 🎛️😵💫

Ево једног пристојног почетног начина размишљања:

Ако лица изгледају пластично,
смањите шум, смањите оштрење, испробајте модел или режим који очува лица.
Ако текстуре изгледају превише интензивно,
смањите вредности клизача за „побољшање детаља“ или „опоравак детаља“, а затим додајте суптилну зрнатост.
Ако ивице светле,
смањите оштрину, проверите опције за сузбијање ореола.
Ако слика изгледа превише „AI“
будите конзервативнији. Понекад је најбољи потез једноставно… мање.

Такође: немојте повећавати скалу на 8x само зато што можете. Чисто увећање од 2x или 4x је често идеална вредност. Након тога, тражите од модела да пише фанфикцију о вашим пикселима 📖😂

Етика, аутентичност и незгодно питање „истине“ 🧭😬

Увећање скале помоћу вештачке интелигенције брише границу:

Рестаурација подразумева враћање онога што је било тамо
Побољшање подразумева додавање онога што није било

Са личним фотографијама је обично у реду (и лепо). Са новинарством, правним доказима, медицинским снимањем или било чиме где је верност важна... морате бити опрезни (OSAC/NIST: Стандардни водич за управљање форензичким дигиталним сликама, SWGDE смернице за форензичку анализу слика).

Једноставно правило:

Ако су улози високи, третирајте повећање скале вештачке интелигенције као илустративну, а не дефинитивну меру.

Такође, откривање информација је важно у професионалном контексту. Не зато што је вештачка интелигенција зла, већ зато што публика заслужује да зна да ли су детаљи реконструисани или снимљени. То је једноставно... пристојно.

Завршне напомене и кратак резиме 🧡✅

Дакле, како функционише вештачко скалирање (AI Upscaling) је следеће: модели уче како се детаљи високе резолуције односе на обрасце ниске резолуције, а затим предвиђају веродостојне додатне пикселе током скалирања (Дубоко учење за суперрезолуцију слика: Анкета). У зависности од породице модела (CNN, GAN, дифузија, видео-темпорални), то предвиђање може бити конзервативно и верно... или смело и понекад неуравнотежено 😅

Кратак резиме

Традиционално скалирање растеже пикселе (бикубична интерполација)
Вештачка интелигенција повећава скалирање предвиђа недостајуће детаље користећи научене обрасце (Суперрезолуција слике коришћењем дубоких конволуционих мрежа (SRCNN))
Одлични резултати долазе од правог модела + уздржаности
Пазите на ореоле, воштане површине, понављајуће текстуре и треперење у видеу (BasicVSR (CVPR 2021))
Повећање скале је често „вероватна реконструкција“, а не савршена истина (SRGAN, ESRGAN)

Ако желиш, реци ми шта надограђујеш (лица, старе фотографије, видео, аниме, скенирање текста), и предложићу стратегију подешавања која тежи да избегне уобичајене замке „AI изгледа“ 🎯🙂

Пример из стварног света: Увећање величине старих фотографија производа са тржишта 📸

Сценарио

Мала продавница половних фотоапарата има 40 фотографија производа извезених са старе веб странице ширине 800 пиксела. Власник жели да их поново употреби на новој страници е-трговине, где је препоручена величина слике ширине 1600 пиксела.

Проблем: нормално промена величине чини да камере изгледају мекано, док агресивно повећање величине помоћу вештачке интелигенције може учинити да гумени рукохвати, серијски бројеви и ознаке на објективима изгледају сумњиво лажно. То је важно јер се купци ослањају на те детаље пре куповине.

Циљ није савршено „вратити“ недостајуће информације. Циљ је креирати јасније слике листа, а оригиналне датотеке остати доступне, јер вештачка интелигенција (AI upscaling) предвиђа веродостојне детаље, а не гарантовану истинитост.

Шта је потребно радном току

Оригиналне фотографије производа, идеално најмање компресоване верзије које су доступне

Циљна излазна величина, као што је 2× повећање ширине са 800 пиксела на 1.600 пиксела

Алат или модел са одвојеним контролама за уклањање шума, оштрење и артефаката

Једноставна контролна листа за преглед текста, ивица, логотипа, шрафова, дугмади, текстуре коже и рефлексија

Фасцикла за оригинале и посебна фасцикла за измењене извозе, тако да се ништа не преписује

Пример упутства

Користите ову врсту инструкције када тестирате AI upscaler:

Увећајте ову фотографију производа за 2× за оглас у е-трговини. Задржите облик објекта, положај логотипа, ознаке сочива, ивице дугмади и текстуру површине што је могуће ближе оригиналу. Користите благо компресијско чишћење, ниско оштрење и избегавајте додавање додатног текста, огреботина, етикета, серијских бројева или декоративних детаља. Коначна слика треба да изгледа природно при нормалној величини странице производа, а не вештачки оштро при зуму од 400%.

Како га тестирати

Почните са пет помешаних слика пре него што обрадите целу серију:

Једна чиста фотографија производа са добрим осветљењем

Једна JPEG компресована слика са блоковским дејством

Једна фотографија са ситним штампаним текстом или ознакама на сочиву

Једна тамна слика са шумом у сенкама

Једна слика са рефлектујућим металом или стаклом

Након повећања величине, упоредите сваки резултат са оригиналом на 100% и 200%. Проверите да ли се називи брендова, бројчаници, завртњи, отвори и текстурни обрасци и даље подударају. Ако модел ствара „скоро слова“ или лажне површинске трагове, смањите подешавање оштрења или опоравка детаља.

Резултат

Илустративни резултат: заснован на мерењу времена теста са пет слика пре и после коришћења овог тока рада.

Ручно чишћење и промена величине трајало је око 9 минута по слици, или 45 минута за пет слика.

Радни ток уз помоћ вештачке интелигенције трајао је око 3 минута по слици, или 15 минута за пет слика.

То је процењених 30 минута уштеде на пет слика, или око 4 сата уштеде на серији од 40 слика.

Резултат провере квалитета: 4 од 5 слика је прошле први преглед. Једна слика није прошле јер је увећавач скале искривио текст малим сочивом, па је поново обрађена са нижим оштрењем и без побољшања текста.

Вредна метрика овде није само „изгледа оштрије“. То је: колико слика прође упоредни преглед без измишљених детаља?

Шта може поћи по злу

Модел може претворити прашину, JPEG блокове или огреботине у „праву“ текстуру.

Ситан текст може постати лажни текст који изгледа уверљиво док се не зумира.

Превише средства за уклањање шума може учинити да гума, кожа или брушени метал изгледају воштано.

Снажно оштрење може створити ореоле око ивица производа.

Групна обрада може сакрити грешке, зато прегледајте узорак пре него што све извезете.

За е-трговину, најбезбедније правило је једноставно: никада не користите вештачку интелигенцију (AI upscaling) да бисте сакрили оштећења, променили стање или учинили да производ изгледа новије него што јесте.

Практична информација

Вештачка интелигенција (AI) повећавање скале најбоље функционише када се третира као контролисани завршни корак, а не као магично дугме за поправку. Користите конзервативна подешавања за 2×, проверите детаље који су купцима важни и задржите оригиналну слику како би измењена верзија остала веродостојна.

Пример из стварног света: Повећање величине старог видеа за обуку без његовог сјаја

Сценарио

Мала компанија за обуку има 7-минутни видео демонстрације безбедности снимљен 2014. године у 720p. Садржај и даље има вредност, али снимак изгледа пребрзо на новој веб страници компаније, посебно на већим екранима лаптопова.

Тим жели да извезе чистију верзију од 1080p без поновног снимања. Ризик је да би агресивно повећање резолуције помоћу вештачке интелигенције могло учинити да лица изгледају воштано, текст на знаковима претворити у „скоро речи“ или створити треперећу текстуру од кадра до кадра.

Циљ није да видео изгледа потпуно ново. Циљ је да буде јаснији, стабилнији и мање компресован, а да лице инструктора, упозорења, покрети руку и детаљи опреме остану верни оригиналу.

Шта је потребно радном току

Оригинална видео датотека, не компримовани садржај са друштвених мрежа ако је могуће

Циљајте величину извоза, као што је 720p на 1080p, уместо директног преласка на 4K

Програм за повећање скале видеа са опцијама за уклањање шума, оштрење, поправку компресије и временску конзистентност

Кратак тест снимак са лицима, покретом, текстом и детаљним површинама

Контролна листа за проверу треперења, ореола, искривљеног текста, текстуре лица и покретних ивица

Сачувана копија оригиналног видеа за поређење и откривање података ако је потребно

Пример упутства

Користите ову врсту инструкције пре обраде целог видеа:

Повећајте резолуцију овог видеа за обуку од 720p на 1080p. Дајте предност природном кретању, стабилним ивицама, читљивом постојећем тексту и реалистичној текстури коже. Користите благу компресију и ниско оштрење. Немојте измишљати недостајући текст, логотипе, етикете, огреботине, детаље лица или ознаке опреме. Избегавајте треперење од кадра до кадра. Коначни резултат треба да изгледа јасније при нормалној величини гледања, а не вештачки оштро када се паузира и зумира.

Како га тестирати

Пре обраде целе датотеке од 7 минута, извезите узорак од 20 секунди који укључује:

Лице инструктора док говори

Рука се креће преко кадра

Упозоравајућа налепница или текст ситним словима

Текстурирана површина, као што су тканина, бетон, брушени метал или пластика

Померање камере или било какво дрхтаво кретање

Погледајте пример два пута: једном нормалном брзином и једном паузирано, кадар по кадар. При нормалној брзини, обратите пажњу на треперење, текстуру пузања или неприродно кретање око ивица. Када је паузирано, упоредите оригиналну и увећану верзију да бисте проверили да ли се текст, дугмад, алати и црте лица и даље подударају.

Резултат

Илустративан резултат: заснован на мерењу времена једног тест снимка од 20 секунди, а затим примени истих подешавања на видео од 7 минута.

Ручни ток рада „промене величине и оштрења“ трајао је око 35 минута, укључујући извоз и преглед, али је резултат показао видљив сјај на коси инструктора и ореоле око безбедносних знакова.

Радни ток уз помоћ вештачке интелигенције трајао је око 55 минута, укључујући пробне извозе, али је смањио проблеме са прегледом са 8 видљивих проблема у првом извозу на 2 мања проблема у коначном извозу.

Коначна верзија је прошла 10 од 12 провера на листи за проверу. Преостала два проблема била су благо затамњење позадинског текста и блага бука у једном тамном углу. Оба су прихваћена јер су инструктор, опрема и безбедносни кораци остали визуелно доследни.

Значајна метрика овде није „постигнута 1080p резолуција“. То је: колико секунди видеа приказује ометајуће артефакте током нормалне репродукције?

Шта може поћи по злу

Модел може да изоштри блокове компресије и учини да изгледају као права текстура.

Ситан текст може изгледати сигурније, али мање прецизно.

Лица могу постати превише глатка ако је превисоко ниво шума.

Покретне ивице могу светлуцати ако алат третира сваки кадар превише независно.

Извоз у 4K резолуцији може изгледати горе од ограниченог извоза у 1080p резолуцији јер модел мора да измисли превише детаља.

Највећа грешка је процена само паузираног кадра. Повећање скале видеа мора изгледати природно у покрету, а не импресивно само као статична слика.

Практична информација

За видео, вештачка интелигенција увећава скалу најбоље функционише када прво тестирате кратак део, одржавате умерено увећање скале и процењујете кретање пре оштрине. Нешто блажи, али стабилан резултат је обично бољи од оштрије верзије која трепери сваки пут када се неко помери.

Честа питања

Увећање скале вештачке интелигенције и како то функционише

Повећање резолуције помоћу вештачке интелигенције (често називано „супер-резолуција“) повећава резолуцију слике предвиђањем недостајућих детаља високе резолуције из образаца научених током обуке. Уместо једноставног истезања пиксела попут бикубичне интерполације, модел проучава ивице, текстуре, површине и потезе сличне тексту, а затим генерише нове податке пиксела који се поклапају са тим наученим обрасцима. То је мање „враћање стварности“, а више „прављење веродостојне претпоставке“ која делује природно.

Вештачка интелигенција: повећање величине у односу на бикубично или традиционално промену величине

Традиционалне методе скалирања (попут бикубичног) углавном интерполирају између постојећих пиксела, изглађујући прелазе без стварања истински нових детаља. вештачка интелигенција (AI) скалира да реконструише вероватну структуру препознавањем визуелних знакова и предвиђањем како ће изгледати верзије тих знакова у високој резолуцији. Зато резултати вештачке интелигенције могу деловати драматично оштрије, а такође и зато могу увести артефакте или „измислити“ детаље који нису били присутни у изворном коду.

Зашто лица могу изгледати воштано или превише глатко

Воштани изглед обично настаје агресивним уклањањем шума и заглађивањем у комбинацији са оштрењем које уклања природну текстуру коже. Многи алати третирају шум и фину текстуру на сличан начин, тако да „чишћење“ слике може избрисати поре и суптилне детаље. Уобичајени приступ је смањење уклањања шума и оштрења, коришћење режима за очување изгледа ако је доступан, а затим поновно увођење мало зрна како би резултат деловао мање пластично и више фотографски.

Уобичајени артефакти скалирања вештачке интелигенције на које треба обратити пажњу

Типични знаци укључују ореоле око ивица, понављајуће текстурне обрасце (као што су цигле које се копирају и лепе), хрскав микроконтраст и текст који се претвара у „скоро слова“. У радним процесима заснованим на дифузији, такође можете видети померање детаља где се мале карактеристике суптилно мењају. Код видеа, треперење и пузање детаља по кадровима су велики упозоравајући знаци. Ако изгледа добро само при екстремном зуму, подешавања су вероватно превише агресивна.

Како се резултати GAN, CNN и дифузионих надограђивача разликују

Суперрезолуција заснована на CNN-у је обично стабилнија и предвидљивија, али може изгледати „обрађено“ ако се превише оптерети. Опције засноване на GAN-у (ESRGAN стилу) често производе јачу текстуру и перципирану оштрину, али могу халуцинирати погрешне детаље, посебно на лицима. Увећање скале засновано на дифузији може генерисати лепе, веродостојне детаље, али могу одступити од оригиналне структуре ако су подешавања за смернице или јачину прејака.

Практична стратегија подешавања за избегавање изгледа „превише вештачке интелигенције“

Почните конзервативно: повећајте скалу 2× или 4× пре него што посегнете за екстремним факторима. Ако лица изгледају пластично, смањите шум и оштрење и испробајте режим који препознаје лица. Ако текстуре постану превише интензивне, смањите побољшање детаља и размислите о додавању суптилног зрна након тога. Ако ивице светле, смањите оштрење и проверите сузбијање ореола или артефаката. У многим пајплајновима, „мање“ побеђује јер очува веродостојни реализам.

Обрада старих скенираних слика или слика са јаким JPEG компресијама пре повећања величине

Компресоване слике су компликоване јер модели могу третирати блоковске артефакте као праву текстуру и појачати их. Уобичајени ток рада је прво уклањање или деблокирање артефаката, затим повећање скале, а затим благо изоштравање само ако је потребно. Код скенирања, нежно чишћење може помоћи моделу да се фокусира на стварну структуру, а не на оштећења. Циљ је смањити „лажне текстурне знакове“ тако да особа која повећава скалу не мора да прави сигурне претпоставке на основу шумних уноса.

Зашто је повећање скале видеа теже од повећања скале фотографија

Повећање резолуције видеа мора бити доследно у свим кадровима, не само добро на једној статичној слици. Ако детаљи трепере од кадра до кадра, резултат брзо постаје ометајући. Приступи фокусирани на видео користе временске информације из суседних кадрова како би стабилизовали реконструкцију и избегли трепереће артефакте. Многи токови рада такође укључују уклањање шума, деинтерлејсовање за одређене изворе и опционо поновно увођење зрнастог слоја како би се цела секвенца осећала кохезивно, а не вештачки оштро.

Када повећање скале помоћу вештачке интелигенције није прикладно или је ризично ослањати се на њега

Повећање скале помоћу вештачке интелигенције (AI) је најбоље третирати као побољшање, а не као доказ. У контекстима са високим улогом као што су новинарство, правни докази, медицинско снимање или форензички рад, генерисање „веродостојних“ пиксела може заваравати јер може додати детаље који нису снимљени. Безбедније уоквиривање је да се користи илустративно и открије да је вештачка интелигенција обрадила реконструисани детаљ. Ако је верност критична, сачувајте оригинале и документујте сваки корак обраде и подешавање.

Референце

arXiv - Дубоко учење за суперрезолуцију слика: Анкета - arxiv.org
arXiv - Суперрезолуција слике коришћењем дубоких конволуционих мрежа (SRCNN) - arxiv.org
arXiv - Real-ESRGAN - arxiv.org
arXiv - ESRGAN - arxiv.org
arXiv - SR3 - arxiv.org
NVIDIA програмер - NVIDIA DLSS - developer.nvidia.com
AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com
Фондација за рачунарски вид (CVF) отворени приступ - BasicVSR: Потрага за есенцијалним компонентама у видео суперрезолуцији (CVPR 2021) - openaccess.thecvf.com
arXiv - Генеративне адверзарне мреже - arxiv.org
arXiv - SRGAN - arxiv.org
arXiv - Перцептивни губици (Џонсон и др., 2016) - arxiv.org
GitHub - Real-ESRGAN репозиторијум (опције плочица) - github.com
Википедија - Бикубична интерполација - wikipedia.org
Топаз Лабс - Топаз Фото - topazlabs.com
Топаз Лабс - Топаз Видео - topazlabs.com
Adobe центар за помоћ - Adobe Enhance > Супер резолуција - helpx.adobe.com
NIST / OSAC - Стандардни водич за управљање форензичким дигиталним сликама (верзија 1.0) - nist.gov
SWGDE - Смернице за форензичку анализу слика - swgde.org

Пронађите најновију вештачку интелигенцију у званичној продавници вештачке интелигенције

О нама

Назад на блог

Додатна честа питања

По чему се повећање величине помоћу вештачке интелигенције разликује од традиционалних метода промене величине?

Вештачка интелигенција повећава скалирање (AI upscaling) предвиђа недостатак детаља високе резолуције из постојећих образаца на слици, уместо да једноставно растеже пикселе као што то раде традиционалне методе попут бикубне интерполације. Ово резултира оштријим и детаљнијим сликама.
На које уобичајене артефакте треба да обратим пажњу када користим надоградњу вештачке интелигенције?

Уобичајени артефакти укључују ореоле око ивица, понављајуће текстурне шаре, превише глатке или воштане површине и текст који се трансформише у „скоро слова“. Важно је пратити ове проблеме како би се осигурао природан резултат.
Зашто лица понекад изгледају превише глатко или нереално након повећања величине?

Лица могу изгледати превише глатко због агресивног уклањања шума и оштрења које може уклонити текстуре попут пора. Да бисте постигли природнији изглед, размислите о смањењу подешавања за уклањање шума и оштрење.
Шта треба да урадим ако моје слике изгледају хрскаво или имају прекомерни шум након коришћења вештачке интелигенције за повећање скале?

Ако ваше слике изгледају хрскаво, покушајте да подесите клизаче за уклањање шума и побољшање детаља. Додавање суптилне зрнатости такође може помоћи да се врати фотографскији осећај.
Како се GAN и CNN модели упоређују у резултатима скалирања вештачке интелигенције?

CNN модели су генерално стабилни и предвидљиви, док GAN модели често пружају оштрије детаље, али ризикују увођење нереалних елемената. Избор између њих зависи од ваше потребе за реализмом у односу на побољшану текстуру.
Да ли је повећање скале помоћу вештачке интелигенције погодно за видео садржај и које изазове представља?

Да, повећање скале помоћу вештачке интелигенције је погодно за видео, али може бити изазовно јер је конзистентност у свим кадровима кључна. Треперење или светлуцање детаља може да одвуче пажњу гледаоцима, па се препоручују специјализоване методе усмерене на видео.
Када није прикладно ослањати се на надоградњу вештачке интелигенције?

Повећање обима помоћу вештачке интелигенције треба користити опрезно у сценаријима са високим улозима, као што су новинарство или форензичка анализа, где је тачност кључна. Најбоље је третирати га као побољшање, а не као дефинитиван доказ, а транспарентност у вези са процесима вештачке интелигенције је неопходна.
Шта треба имати на уму приликом повећања величине јако компресованих слика?

За слике које су јако компресоване, почните са уклањањем артефаката како бисте минимизирали нежељене блокаде. Након тога можете повећати скалу и применити благо изоштравање ако је потребно да бисте одржали детаље без појачавања артефаката компресије.