Како функционише надоградња вештачке интелигенције

Како функционише надоградња вештачке интелигенције (AI Upscaling)?

Кратак одговор: Увећање резолуције помоћу вештачке интелигенције функционише тако што се модел тренира на упареним сликама ниске и високе резолуције, а затим се то користи за предвиђање веродостојних додатних пиксела током повећања резолуције. Ако је модел видео сличне текстуре или лица током обуке, може додати убедљиве детаље; ако не, може „халуцинирати“ артефакте попут ореола, воштане коже или треперења у видеу.

Кључне закључке:

Предвиђање : Модел генерише вероватне детаље, а не загарантовану реконструкцију стварности.

Избор модела : CNN мреже су обично стабилније; GAN мреже могу изгледати оштрије, али ризикују да измисле нове функције.

Провера артефаката : Пазите на ореоле, понављајуће текстуре, „скоро слова“ и пластична лица.

Стабилност видеа : Користите временске методе или ћете видети треперење и померање од кадра до кадра.

Употреба са високим улогом : Ако је тачност важна, откријте обраду и третирајте резултате као илустративне.

Како функционише надоградња вештачке интелигенције? Инфографика.

Вероватно сте то видели: сићушна, хрскава слика се претвара у нешто довољно оштро да се одштампа, стримује или убаци у презентацију без гримасе. Осећа се као варање. И - на најбољи начин - некако јесте 😅

Дакле, начин на који функционише вештачка интелигенција (AI Upscaling) своди се на нешто конкретније од „рачунар побољшава детаље“ (таласаста слика) и ближе је „моделу који предвиђа вероватну структуру високе резолуције на основу образаца које је научио из мноштва примера“ ( Дубоко учење за суперрезолуцију слика: Анкета ). Тај корак предвиђања је цела игра - и зато вештачка интелигенција може изгледати запањујуће... или мало пластично... или као да је вашој мачки нарасло додатно брково.

Чланци које бисте можда желели да прочитате након овог:

🔗 Како функционише вештачка интелигенција
Научите основе модела, података и закључивања у вештачкој интелигенцији.

🔗 Како вештачка интелигенција учи
Погледајте како подаци за обуку и повратне информације побољшавају перформансе модела током времена.

🔗 Како вештачка интелигенција открива аномалије
Разумети основне обрасце и како вештачка интелигенција брзо означава необично понашање.

🔗 Како вештачка интелигенција предвиђа трендове
Истражите методе прогнозирања које уочавају сигнале и предвиђају будућу потражњу.


Како функционише надоградња вештачке интелигенције: основна идеја, речено свакодневним речима 🧩

Повећање резолуције значи повећање: више пиксела, већа слика. Традиционално повећање резолуције (као што је бикубично) у основи растеже пикселе и изглађује прелазе ( бикубична интерполација ). У реду је, али не може да измисли нове детаље - само интерполира.

Повећање резолуције помоћу вештачке интелигенције покушава нешто смелије (тј. „супер-резолуција“ у свету истраживања) ( Дубоко учење за супер-резолуцију слика: Анкета ):

  • Гледа улаз ниске резолуције

  • Препознаје шаре (ивице, текстуре, црте лица, потезе текста, ткање тканине…)

  • би требало да изгледа верзија веће резолуције

  • Генерише додатне податке пиксела који одговарају тим обрасцима

Не „савршено вратити стварност“, већ „направити веома веродостојну претпоставку“ ( Суперрезолуција слике коришћењем дубоких конволуционих мрежа (SRCNN) ). Ако вам то звучи помало сумњиво, нисте у праву - али то је и разлог зашто тако добро функционише 😄

И да, то значи да је повећање скале помоћу вештачке интелигенције у основи контролисана халуцинација... али на продуктиван начин који поштује пикселе.


Шта чини добру верзију надоградње вештачке интелигенције? ✅🛠️

Ако процењујете вештачку интелигенцију (или унапред подешено подешавање), ево шта је обично најважније:

  • Опоравак детаља без прекувања.
    Добро скалирање додаје хрскавост и структуру, а не хрскави шум или лажне поре.

  • Дисциплина на ивицама
    Чисте линије остају чисте. Лоши модели чине да се ивице климају или им се стварају ореоли.

  • Реализам текстуре
    Коса не би требало да постане потез четкице. Цигла не би требало да постане печат са понављајућим узорком.

  • Руковање шумом и компресијом.
    Много свакодневних слика се претвара у JPEG формат до смрти. Добар алат за повећање скале не појачава ту штету ( Real-ESRGAN ).

  • Свест о лицима и тексту
    Лица и текст су места где се најлакше уочавају грешке. Добри модели се према њима опходе нежно (или имају специјализоване режиме).

  • Конзистентност у свим кадровима (за видео)
    Ако детаљи трепере од кадра до кадра, ваше очи ће вриштати. Повећање скале видеа живи или умире временском стабилношћу ( BasicVSR (CVPR 2021) ).

  • Контроле које имају смисла
    Желите клизаче који се пресликавају на стварне резултате: уклањање шума, уклањање замућења, уклањање артефаката, задржавање зрна, оштрење… практичне ствари.

Тихо правило које важи: „најбоље“ повећање величине је често оно које једва приметите. Само изгледа као да сте од почетка имали бољу камеру 📷✨


Табела за поређење: популарне опције за надоградњу вештачке интелигенције (и за шта су добре) 📊🙂

Испод је практично поређење. Цене су намерно нејасне јер се алати разликују по лиценци, пакетима, трошковима рачунарства и свим тим забавним стварима.

Алат / Приступ Најбоље за Вибрација цена Зашто функционише (отприлике)
Уређаји за надоградњу десктопа у стилу Топаз ( Топаз Фото , Топаз Видео ) Фотографије, видео, једноставан радни процес Плаћено Јаки општи модели + пуно подешавања, углавном „само раде“..
Функције типа Adobe „Super Resolution“ ( Adobe Enhance > Super Resolution ) Фотографи који су већ у том екосистему Претплата Реконструкција са чврстим детаљима, обично конзервативна (мање драме)
Real-ESRGAN / ESRGAN варијанте ( Real-ESRGAN , ESRGAN ) Уради сам, програмери, групни послови Бесплатно (али дуготрајно) Одлично за детаље текстуре, може бити љуто на лицу ако нисте пажљиви
Режими скалирања засновани на дифузији ( SR3 ) Креативни рад, стилизовани резултати Мешовито Може да створи прелепе детаље - такође може да измисли глупости, тако да... да
Програми за надоградњу квалитета у играма (DLSS/FSR-стил) ( NVIDIA DLSS , AMD FSR 2 ) Играње и рендеровање у реалном времену У пакету Користи податке о кретању и научене претходнике - глатко побољшање перформанси 🕹️
Услуге надоградње у облаку Практичност, брзе победе Плаћање по коришћењу Брзо + скалабилно, али жртвујете контролу, а понекад и суптилност
Видео фокусирани вештачки апскелери ( BasicVSR , Topaz Video ) Стари снимци, аниме, архива Плаћено Временски трикови за смањење треперења + специјализовани видео модели
Увећање резолуције за „паметни“ телефон/галерију Неформална употреба Укључено Лагани модели подешени за задовољавајући резултат, а не за савршенство (и даље практични)

Признање о необичности форматирања: „Плаћено“ ради много посла у тој табели. Али схватате поенту 😅


Велика тајна: модели уче мапирање од ниске до високе резолуције 🧠➡️🖼️

У сржи већине надоградњи вештачке интелигенције је подешавање надгледаног учења ( Суперрезолуција слике коришћењем дубоких конволуционих мрежа (SRCNN) ):

  1. Почните са сликама високе резолуције („истина“)

  2. Смањите њихов узорак на верзије ниске резолуције („улаз“)

  3. Обучите модел да реконструише оригиналну високу резолуцију из ниске резолуције

Временом, модел учи корелације као што су:

  • „Ова врста замућења око ока обично припада трепавицама“

  • „Овај кластер пиксела често указује на серифни текст“

  • „Овај градијент ивице изгледа као линија крова, а не као случајна бука“

Не ради се о памћењу одређених слика (у једноставном смислу), већ о учењу статистичке структуре ( Дубоко учење за суперрезолуцију слика: Анкета ). Замислите то као учење граматике текстура и ивица. Не о поетској граматици, више као... ИКЕА граматика приручника 🪑📦 (неспретна метафора, али довољно слична).


Основне ствари: шта се дешава током закључивања (када се скалира) ⚙️✨

Када унесете слику у AI upscaler, обично постоји цевовод попут овог:

  • Претходна обрада

  • Екстракција карактеристика

    • Рани слојеви детектују ивице, углове, градијенте

    • Дубљи слојеви откривају обрасце: текстуре, облике, компоненте лица

  • Реконструкција

    • Модел генерише мапу карактеристика веће резолуције

    • Затим то претвара у стварни пикселни излаз

  • Накнадна обрада

    • Опционо оштрење

    • Опционо уклањање шума

    • Опционо сузбијање артефаката (звоњење, ореоли, блокада)

Један суптилни детаљ: многи алати повећавају величину плочица, а затим стапају спојеве. Одлични алати скривају границе плочица. Па, алати остављају бледе трагове мреже ако зажмурите. И да, зажмурићете, јер људи воле да испитују ситне несавршености при зуму од 300% као мали гремлини 🧌


Главне породице модела које се користе за надоградњу вештачке интелигенције (и зашто се осећају другачије) 🤖📚

1) Суперрезолуција заснована на CNN-у (класични радни коњ)

Конволуционе неуронске мреже су одличне за локалне обрасце: ивице, текстуре, мале структуре ( Суперрезолуција слике коришћењем дубоких конволуционих мрежа (SRCNN) ).

  • Предности: брз, стабилан, мање изненађења

  • Мане: може изгледати мало „обрађено“ ако се јако притисне

2) Надоградња заснована на GAN-у (ESRGAN-стил) 🎭

GAN-ови (генеративне адверзарне мреже) обучавају генератор да производи слике високе резолуције које дискриминатор не може да разликује од стварних ( генеративне адверзарне мреже ).

  • Предности: упечатљиви детаљи, импресивна текстура

  • Мане: могу измислити детаље којих није било - понекад погрешно, понекад језиво ( SRGAN , ESRGAN )

GAN вам може пружити ту запањујућу оштрину. Такође може вашем портрету дати додатну обрву. Зато… бирајте своје битке 😬

3) Повећање скале засновано на дифузији (креативни џокер) 🌫️➡️🖼️

Дифузиони модели уклањају шум корак по корак и могу се водити да би се произвели детаљи високе резолуције ( SR3 ).

  • Предности: може бити невероватно добар у уверљивим детаљима, посебно за креативни рад

  • Мане: може се удаљити од оригиналног идентитета/структуре ако су подешавања агресивна ( SR3 )

Овде се „увећање скале“ почиње стапати са „поновним осмишљавањем“. Понекад је то управо оно што желите. Понекад није.

4) Повећање резолуције видеа са временском конзистентношћу 🎞️

Повећање скале видеа често додаје логику која препознаје покрете:

  • Користи суседне фрејмове за стабилизацију детаља ( BasicVSR (CVPR 2021) )

  • Покушава да избегне треперење и пузање артефаката

  • Често комбинује суперрезолуцију са уклањањем шума и деинтерлејсингом ( Топаз Видео )

Ако је повећање скале слике као рестаурација једне слике, повећање скале видеа је као рестаурација флипбука без промене облика носа лика на свакој страници. Што је... теже него што звучи.


Зашто повећање скале помоћу вештачке интелигенције понекад изгледа лажно (и како то препознати) 👀🚩

Увећање скале помоћу вештачке интелигенције не успева на препознатљиве начине. Када једном научите обрасце, видећете их свуда, као што је куповина новог аутомобила и одједном примећујете тај модел на свакој улици 😵💫

Уобичајене приче:

  • Депилација лица воском (превише уклањања шума + заглађивања)

  • Преоштрени ореоли око ивица (класична територија „превишења“) ( бикубична интерполација )

  • Понављајуће текстуре (зидови од цигле постају копирани и налепљени обрасци)

  • Хрскави микроконтраст који вришти „алгоритам“

  • Изобличавање текста где слова постају скоро слова (најгора врста)

  • Померање детаља где се мале карактеристике суптилно мењају, посебно у дифузионим радним процесима ( SR3 )

Замршен део: понекад ови артефакти изгледају „боље“ на први поглед. Ваш мозак воли оштрину. Али после тренутка, делује... чудно.

Добра тактика је да зумирате и проверите да ли изгледа природно на нормалној удаљености гледања. Ако изгледа добро само при зуму од 400%, то није победа, то је хоби 😅


Како функционише надоградња вештачке интелигенције: страна обуке, без математичке главобоље 📉🙂

Обука модела супер резолуције обично укључује:

Типичне врсте губитака:

  • Губитак пиксела (L1/L2)
    Подстиче тачност. Може произвести мало меке резултате.

  • Перцептивни губитак
    Упоређује дубље карактеристике (као што је „да ли ово изгледа слично“) уместо тачних пиксела ( Перцептивни губици (Џонсон и др., 2016) ).

  • Супарнички губитак (GAN)
    Подстиче реализам, понекад по цену дословне тачности ( SRGAN , Генеративне супарничке мреже ).

Постоји стално надметање:

  • Учините га верним оригиналу
    у односу на

  • Учините га визуелно пријатним

Различити алати се налазе на различитим местима у том спектру. И можда ћете преферирати један у зависности од тога да ли рестаурирате породичне фотографије или припремате постер где је „леп изглед“ важнији од форензичке тачности.


Практични токови рада: фотографије, стари скенирани материјали, аниме и видео 📸🧾🎥

Фотографије (портрети, пејзажи, фотографије производа)

Најбоља пракса је обично:

  • Прво благо уклањање шума (ако је потребно)

  • Луксузно са конзервативним окружењем

  • Додајте зрно ако вам се чини да је превише глатко (да, стварно)

Житарице су као со. Превише их упропасти вечеру, али ниједна не може бити мало бљутава 🍟

Стари скенирани снимци и јако компресоване слике

Ово је теже јер модел може третирати блокове компресије као „текстуру“.
Пробајте:

  • Уклањање или деблокирање артефаката

  • Затим надоградња

  • Затим лагано оштрење (не превише… Знам, сви то кажу, али ипак)

Аниме и линијска уметност

Линијска уметност има следеће користи:

  • Модели који одржавају чисте ивице

  • Смањена халуцинација текстуре
    . Увећање скале у анимеу често изгледа одлично јер су облици једноставнији и доследни. (Срећно.)

Видео

Видео додаје додатне кораке:

  • Уклањање шума

  • Деинтерлејсовање (за одређене изворе)

  • Луксузно

  • Временско изглађивање или стабилизација ( BasicVSR (CVPR 2021) )

  • Опционо поновно уношење зрна ради кохезије

Ако прескочите временску конзистентност, добићете то треперење детаља. Када га једном приметите, не можете га не видети. Као шкрипава столица у тихој соби 😖


Избор подешавања без превише нагађања (мали шалабар) 🎛️😵💫

Ево једног пристојног почетног начина размишљања:

  • Ако лица изгледају пластично,
    смањите шум, смањите оштрење, испробајте модел или режим који очува лица.

  • Ако текстуре изгледају превише интензивно,
    смањите вредности клизача за „побољшање детаља“ или „опоравак детаља“, а затим додајте суптилну зрнатост.

  • Ако ивице светле,
    смањите оштрину, проверите опције за сузбијање ореола.

  • Ако слика изгледа превише „AI“
    будите конзервативнији. Понекад је најбољи потез једноставно… мање.

Такође: немојте повећавати скалу на 8x само зато што можете. Чисто увећање од 2x или 4x је често идеална вредност. Након тога, тражите од модела да пише фанфикцију о вашим пикселима 📖😂


Етика, аутентичност и незгодно питање „истине“ 🧭😬

Увећање скале помоћу вештачке интелигенције брише границу:

  • Рестаурација подразумева враћање онога што је било тамо

  • Побољшање подразумева додавање онога што није било

Са личним фотографијама је обично у реду (и лепо). Са новинарством, правним доказима, медицинским снимањем или било чиме где је верност важна... морате бити опрезни ( OSAC/NIST: Стандардни водич за управљање форензичким дигиталним сликама , SWGDE смернице за форензичку анализу слика ).

Једноставно правило:

  • Ако су улози високи, третирајте повећање скале вештачке интелигенције као илустративну , а не дефинитивну меру.

Такође, откривање информација је важно у професионалном контексту. Не зато што је вештачка интелигенција зла, већ зато што публика заслужује да зна да ли су детаљи реконструисани или снимљени. То је једноставно... пристојно.


Завршне напомене и кратак резиме 🧡✅

Дакле, како функционише вештачко скалирање (AI Upscaling) је следеће: модели уче како се детаљи високе резолуције односе на обрасце ниске резолуције, а затим предвиђају веродостојне додатне пикселе током скалирања ( Дубоко учење за суперрезолуцију слика: Анкета ). У зависности од породице модела (CNN, GAN, дифузија, видео-темпорални), то предвиђање може бити конзервативно и верно... или смело и понекад неуравнотежено 😅

Кратак резиме

Ако желиш, реци ми шта надограђујеш (лица, старе фотографије, видео, аниме, скенирање текста), и предложићу стратегију подешавања која тежи да избегне уобичајене замке „AI изгледа“ 🎯🙂


Честа питања

Увећање скале вештачке интелигенције и како то функционише

Повећање резолуције помоћу вештачке интелигенције (често називано „супер-резолуција“) повећава резолуцију слике предвиђањем недостајућих детаља високе резолуције из образаца научених током обуке. Уместо једноставног истезања пиксела попут бикубичне интерполације, модел проучава ивице, текстуре, површине и потезе сличне тексту, а затим генерише нове податке пиксела који се поклапају са тим наученим обрасцима. То је мање „враћање стварности“, а више „прављење веродостојне претпоставке“ која делује природно.

Вештачка интелигенција: повећање величине у односу на бикубично или традиционално промену величине

Традиционалне методе скалирања (попут бикубичног) углавном интерполирају између постојећих пиксела, изглађујући прелазе без стварања истински нових детаља. вештачка интелигенција (AI) скалира да реконструише вероватну структуру препознавањем визуелних знакова и предвиђањем како ће изгледати верзије тих знакова у високој резолуцији. Зато резултати вештачке интелигенције могу деловати драматично оштрије, а такође и зато могу увести артефакте или „измислити“ детаље који нису били присутни у изворном коду.

Зашто лица могу изгледати воштано или превише глатко

Воштани изглед обично настаје агресивним уклањањем шума и заглађивањем у комбинацији са оштрењем које уклања природну текстуру коже. Многи алати третирају шум и фину текстуру на сличан начин, тако да „чишћење“ слике може избрисати поре и суптилне детаље. Уобичајени приступ је смањење уклањања шума и оштрења, коришћење режима за очување изгледа ако је доступан, а затим поновно увођење мало зрна како би резултат деловао мање пластично и више фотографски.

Уобичајени артефакти скалирања вештачке интелигенције на које треба обратити пажњу

Типични знаци укључују ореоле око ивица, понављајуће текстурне обрасце (као што су цигле које се копирају и лепе), хрскав микроконтраст и текст који се претвара у „скоро слова“. У радним процесима заснованим на дифузији, такође можете видети померање детаља где се мале карактеристике суптилно мењају. Код видеа, треперење и пузање детаља по кадровима су велики упозоравајући знаци. Ако изгледа добро само при екстремном зуму, подешавања су вероватно превише агресивна.

Како се резултати GAN, CNN и дифузионих надограђивача разликују

Суперрезолуција заснована на CNN-у је обично стабилнија и предвидљивија, али може изгледати „обрађено“ ако се превише оптерети. Опције засноване на GAN-у (ESRGAN стилу) често производе јачу текстуру и перципирану оштрину, али могу халуцинирати погрешне детаље, посебно на лицима. Увећање скале засновано на дифузији може генерисати лепе, веродостојне детаље, али могу одступити од оригиналне структуре ако су подешавања за смернице или јачину прејака.

Практична стратегија подешавања за избегавање изгледа „превише вештачке интелигенције“

Почните конзервативно: повећајте скалу 2× или 4× пре него што посегнете за екстремним факторима. Ако лица изгледају пластично, смањите шум и оштрење и испробајте режим који препознаје лица. Ако текстуре постану превише интензивне, смањите побољшање детаља и размислите о додавању суптилног зрна након тога. Ако ивице светле, смањите оштрење и проверите сузбијање ореола или артефаката. У многим пајплајновима, „мање“ побеђује јер очува веродостојни реализам.

Обрада старих скенираних слика или слика са јаким JPEG компресијама пре повећања величине

Компресоване слике су компликоване јер модели могу третирати блоковске артефакте као праву текстуру и појачати их. Уобичајени ток рада је прво уклањање или деблокирање артефаката, затим повећање скале, а затим благо изоштравање само ако је потребно. Код скенирања, нежно чишћење може помоћи моделу да се фокусира на стварну структуру, а не на оштећења. Циљ је смањити „лажне текстурне знакове“ тако да особа која повећава скалу не мора да прави сигурне претпоставке на основу шумних уноса.

Зашто је повећање скале видеа теже од повећања скале фотографија

Повећање резолуције видеа мора бити доследно у свим кадровима, не само добро на једној статичној слици. Ако детаљи трепере од кадра до кадра, резултат брзо постаје ометајући. Приступи фокусирани на видео користе временске информације из суседних кадрова како би стабилизовали реконструкцију и избегли трепереће артефакте. Многи токови рада такође укључују уклањање шума, деинтерлејсовање за одређене изворе и опционо поновно увођење зрнастог слоја како би се цела секвенца осећала кохезивно, а не вештачки оштро.

Када повећање скале помоћу вештачке интелигенције није прикладно или је ризично ослањати се на њега

Повећање скале помоћу вештачке интелигенције (AI) је најбоље третирати као побољшање, а не као доказ. У контекстима са високим улогом као што су новинарство, правни докази, медицинско снимање или форензички рад, генерисање „веродостојних“ пиксела може заваравати јер може додати детаље који нису снимљени. Безбедније уоквиривање је да се користи илустративно и открије да је вештачка интелигенција обрадила реконструисани детаљ. Ако је верност критична, сачувајте оригинале и документујте сваки корак обраде и подешавање.

Референце

  1. arXiv - Дубоко учење за суперрезолуцију слика: Анкета - arxiv.org

  2. arXiv - Суперрезолуција слике коришћењем дубоких конволуционих мрежа (SRCNN) - arxiv.org

  3. arXiv - Real-ESRGAN - arxiv.org

  4. arXiv - ESRGAN - arxiv.org

  5. arXiv - SR3 - arxiv.org

  6. NVIDIA програмер - NVIDIA DLSS - developer.nvidia.com

  7. AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com

  8. Фондација за рачунарски вид (CVF) отворени приступ - BasicVSR: Потрага за есенцијалним компонентама у видео суперрезолуцији (CVPR 2021) - openaccess.thecvf.com

  9. arXiv - Генеративне адверзарне мреже - arxiv.org

  10. arXiv - SRGAN - arxiv.org

  11. arXiv - Перцептивни губици (Џонсон и др., 2016) - arxiv.org

  12. GitHub - Real-ESRGAN репозиторијум (опције плочица) - github.com

  13. Википедија - Бикубична интерполација - wikipedia.org

  14. Топаз Лабс - Топаз Фото - topazlabs.com

  15. Топаз Лабс - Топаз Видео - topazlabs.com

  16. Adobe центар за помоћ - Adobe Enhance > Супер резолуција - helpx.adobe.com

  17. NIST / OSAC - Стандардни водич за управљање форензичким дигиталним сликама (верзија 1.0) - nist.gov

  18. SWGDE - Смернице за форензичку анализу слика - swgde.org

Пронађите најновију вештачку интелигенцију у званичној продавници вештачке интелигенције

О нама

Назад на блог