Како применити вештачку интелигенцију (AI) моделе

Како применити вештачку интелигенцију (AI) моделе

Кратак одговор: Примена вештачке интелигенције значи избор обрасца сервирања (у реалном времену, серијски, стриминг или на рубу мреже), а затим чињење целе путање репродуцибилном, видљивом, безбедном и реверзибилном. Када све верзионишете и упоредите латенцију p95/p99 на корисним оптерећењима сличним продукцији, избегавате већину кварова типа „ради на мом лаптопу“.

Кључне закључке:

Шаблони имплементације: Изаберите реално време, пакетно, стримовање или ивицу рада пре него што се обавежете на алате.

Репродуктивност: Верзионирајте модел, функције, код и окружење како бисте спречили померање.

Уочљивост: Континуирано праћење репова латенције, грешака, засићења и дистрибуције података или излаза.

Безбедна имплементација: Користите канарканско, плаво-зелено или сенчано тестирање са аутоматским праговима враћања.

Безбедност и приватност: Примените ауторизацију, ограничења брзине и управљање тајнама и минимизирајте лични подаци у логовима.

Како применити вештачку интелигенцију? Инфографика

Чланци које бисте можда желели да прочитате након овог: 

🔗 Како мерити перформансе вештачке интелигенције
Научите метрике, бенчмаркове и провере из стварног света за поуздане резултате вештачке интелигенције.

🔗 Како аутоматизовати задатке помоћу вештачке интелигенције
Претворите понављајући посао у токове рада користећи упите, алате и интеграције.

🔗 Како тестирати вештачку интелигенцију (AI) моделе
Дизајнирајте евалуације, скупове података и бодовање како бисте објективно упоредили моделе.

🔗 Како разговарати са вештачком интелигенцијом
Постављајте боља питања, поставите контекст и брзо добијајте јасније одговоре.


1) Шта заправо значи „имплементација“ (и зашто то није само API) 🧩

Када људи кажу „применити модел“, могу мислити на било шта од овога:

Дакле, распоређивање је мање „учинити модел приступачним“ и више као:

То је као отварање ресторана. Спремање одличног јела је важно, свакако. Али и даље вам је потребна зграда, особље, хлађење, менији, ланац снабдевања и начин да се носите са гужвом око вечере, а да не плачете у замрзивачу. Није савршена метафора... али схватате. 🍝


2) Шта чини добру верзију „Како применити вештачке интелигенције“ ✅

„Добро распоређивање“ је досадно на најбољи начин. Понаша се предвидљиво под притиском, а када се не понаша тако, можете то брзо дијагностиковати.

Ево како обично изгледа „добро“:

  • Репродуцибилне верзије
    Исти код + исте зависности = исто понашање. Нема језивих вибрација „ради на мом лаптопу“ 👻 (Docker: Шта је контејнер?)

  • Јасан интерфејс уговор.
    Улази, излази, шеме и гранични случајеви су дефинисани. Нема изненађујућих типова у 2 ујутру. (OpenAPI: Шта је OpenAPI?,JSON шема)

  • Перформансе које одговарају стварности.
    Латенција и пропусност мерени на хардверу сличном производном и реалистичним корисним теретима.

  • Праћење помоћу
    метрике, логова, трагова и провера померања које покрећу акцију (не само контролне табле које нико не отвара). (SRE књига: Праћење дистрибуираних система)

  • Стратегија безбедног имплементирања
    Канарско или плаво-зелено издање, лако враћање на претходну верзију, верзирање које не захтева молитву. (Канарско издање, плаво-зелено имплементирање)

  • Свест о трошковима
    „Брзо“ је одлично док рачун не изгледа као број телефона 📞💸

  • Безбедност и приватност уграђени у
    управљање тајнама, контролу приступа, руковање личним подацима и могућност ревизије. (Kubernetes Secrets, NIST SP 800-122)

Ако то можете да радите доследно, већ сте испред већине тимова. Будимо искрени.


3) Изаберите прави образац распоређивања (пре него што изаберете алате) 🧠

API инференција у реалном времену ⚡

Најбоље када:

  • корисницима су потребни тренутни резултати (препоруке, провере превара, ћаскање, персонализација)

  • одлуке морају бити донете током захтева

Опрез:

Групно бодовање 📦

Најбоље када:

  • предвиђања могу бити одложена (оцењивање ризика преко ноћи, предвиђање одлива, обогаћивање ETL-а) (Amazon SageMaker Batch Transform)

  • желите исплативост и једноставније операције

Опрез:

  • ажурност података и накнадне допуне

  • одржавање логике карактеристика у складу са обуком

Стриминг инференција 🌊

Најбоље када:

  • континуирано обрађујете догађаје (IoT, кликстримови, системи за праћење)

  • желите одлуке скоро у реалном времену без строгог система захтева и одговора

Опрез:

Имплементација на рубу мреже 📱

Најбоље када:

Опрез:

Прво изаберите шаблон, па затим изаберите стек. У супротном ћете на крају форсирати квадратни модел у округли режим извршавања. Или нешто слично. 😬


4) Паковање модела тако да преживи контакт са производњом 📦🧯

Овде већина „лаких имплементација“ тихо умире.

Верзија свега (да, свега)

  • Артефакт модела (тежине, графикон, токенизатор, мапе ознака)

  • Логика карактеристика (трансформације, нормализација, енкодери)

  • Инференцијски код (претходна/накнадна обрада)

  • Окружење (Python, CUDA, системске библиотеке)

Једноставан приступ који функционише:

  • третирајте модел као артефакт издања

  • сачувајте га са ознаком верзије

  • захтева датотеку са метаподацима сличну картици модела: шема, метрике, белешке о снимцима података за обуку, позната ограничења (Картице модела за извештавање о моделу)

Контејнери помажу, али их немојте обожавати 🐳

Контејнери су одлични јер:

Али и даље морате да управљате:

  • ажурирања основних слика

  • Компатибилност драјвера за графичку картицу (GPU)

  • безбедносно скенирање

  • величина слике (нико не воли „здраво свете“ од 9 ГБ) (најбоље праксе за изградњу Докера)

Стандардизујте интерфејс

Одлучите се за формат улаза/излаза рано:

  • JSON због једноставности (спорији, али пријатељски) (JSON шема)

  • Protobuf за перформансе (преглед протоколских бафера)

  • корисни терет заснован на датотекама за слике/аудио (плус метаподаци)

И молим вас да валидирате уносе. Неважећи уноси су главни узрок проблема типа „зашто враћа бесмислене“ тикете. (OpenAPI: Шта је OpenAPI?,JSON шема)


5) Опције сервирања - од „једноставног API-ја“ до сервера са пуним моделом 🧰

Постоје две уобичајене руте:

Опција А: Сервер апликација + код за закључивање (приступ у стилу FastAPI-ја) 🧪

Пишете API који учитава модел и враћа предвиђања. (FastAPI)

Предности:

  • лако се прилагођава

  • одлично за једноставније моделе или производе у раној фази

  • једноставна ауторизација, рутирање и интеграција

Мане:

  • сопствено подешавање перформанси (груписање, обрада нити, коришћење графичког процесора)

  • Измислићеш неке точкове поново, можда лоше у почетку

Опција Б: Модел сервер (приступ у стилу TorchServe / Triton) 🏎️

Специјализовани сервери који обрађују:

Предности:

  • бољи обрасци перформанси одмах по покретању

  • јасније раздвајање између сервирања и пословне логике

Мане:

  • додатна оперативна сложеност

  • конфигурација може деловати... компликовано, као подешавање температуре туша

Хибридни образац је веома чест:


6) Табела поређења - популарни начини распоређивања (са искреним вибрацијама) 📊😌

Испод је практичан преглед опција које људи заправо користе када схватају како да примене вештачке интелигенције моделе.

Алат / Приступ Публика Цена Зашто то функционише
Докер + ФастАПИ (или слично) Мали тимови, стартапови Слободно Једноставно, флексибилно, брзо за испоруку - „осетићеш“ сваки проблем са скалирањем (Docker, FastAPI)
Кубернетес (уради сам) Тимови платформе Инфра-зависно Контрола + скалабилност… такође, много дугмади, нека од њих су уклета (Kubernetes HPA)
Платформа за управљано машинско учење (клауд машинско учење) Тимови који желе мање операција Плаћање по потрошњи Уграђени токови рада за имплементацију, праћење кукица - понекад скупо за крајње тачке које су увек укључене (имплементација Vertex AI, SageMaker закључивање у реалном времену)
Функције без сервера (за лако закључивање) Апликације вођене догађајима Плаћање по коришћењу Одлично за гужву у саобраћају - али хладни стартови и величина модела могу вам упропастити дан 😬 (AWS Lambda хладни стартови)
NVIDIA Triton Inference Server Тимови фокусирани на учинак Бесплатан софтвер, трошкови инфраструктуре Одлично искоришћење графичког процесора, групирање, вишеструки модели - конфигурација захтева стрпљење (Triton: Динамичко групирање)
TorchServe Тимови који користе много PyTorch-а Слободан софтвер Пристојни подразумевани обрасци сервирања - може бити потребно подешавање за велике размере (TorchServe документација)
БентоМЛ (паковање + сервирање) Инжењери машинског учења Бесплатно језгро, додаци варирају Глатко паковање, лепо искуство за програмере - и даље су вам потребни избори инфраструктуре (BentoML паковање за имплементацију)
Реј Серв Људи који се баве дистрибуираним системима Инфра-зависно Скалира се хоризонтално, добро за цевоводе - делује „велико“ за мале пројекте (документација Ray Serve-а)

Напомена за столом: „Бесплатно“ је израз из стварног живота. Јер никад није бесплатно. Увек негде постоји рачун, чак и ако је у питању ваш сан. 😴


7) Перформансе и скалирање - латенција, пропусност и истина 🏁

Подешавање перформанси је место где имплементација постаје занат. Циљ није „брзо“. Циљ је константно довољно брзо.

Кључне метрике које су важне

Уобичајене полуге за повлачење

  • Групно обједињавање
    Комбинује захтеве ради максимизирања коришћења графичке картице. Одлично за пропусност, али може утицати на латенцију ако се претера. (Triton: Динамичко групирање)

  • Квантизација
    Мања прецизност (као INT8) може убрзати закључивање и смањити меморију. Може мало смањити тачност. Понекад не, изненађујуће. (Квантизација након обуке)

  • Компилација / оптимизација
    ONNX извоза, оптимизатори графова, токови слични TensorRT-у. Моћно, али дебаговање може бити зачињено 🌶️ (ONNX, ONNX Runtime модел оптимизације)

  • Кеширање
    Ако се уноси понављају (или можете кеширати уграђене елементе), можете много уштедети.

  • Аутоматско
    скалирање Скалирање на основу искоришћености CPU/GPU-а, дубине реда или брзине захтева. Дубина реда је потцењена. (Kubernetes HPA)

Чудан, али истинит савет: мерите са величинама корисног терета сличним производним. Мали тестни корисни терети вас лажу. Они се љубазно осмехују, а затим вас касније издају.


8) Праћење и видљивост - немојте летети на слепо 👀📈

Праћење модела није само праћење времена рада. Желите да знате да ли:

Шта пратити (минимални одрживи скуп)

Стање услуге

Понашање модела

  • дистрибуције улазних карактеристика (основне статистике)

  • норме уграђивања (за моделе уграђивања)

  • дистрибуције резултата (поузданост, мешавина класа, распони резултата)

  • детекција аномалија на улазима (смеће улази, смеће излази)

Померање података и померање концепта

Вођење евиденције, али не приступ „заувек евидентирај све“ 🪵

Дневник:

  • ИД-ови захтева

  • верзија модела

  • Резултати валидације шеме (OpenAPI: Шта је OpenAPI?)

  • метаподаци минималног структурираног корисног садржаја (не сирови лични подаци) (NIST SP 800-122)

Будите опрезни са приватношћу. Не желите да ваши логови постану извор цурења ваших података. (NIST SP 800-122)


9) CI/CD и стратегије имплементације - третирајте моделе као права издања 🧱🚦

Ако желите поуздана имплементирања, направите цевовод. Чак и једноставан.

Чврст ток

  • Јединични тестови за претходну и постпроцесну обраду

  • Тест интеграције са познатим „златним скупом“ улаза и излаза

  • Основна база теста оптерећења (чак и лагана)

  • Изградња артефакта (контејнер + модел) (најбоље праксе за изградњу Docker-а)

  • Распоређивање у припремну фазу

  • Пуштање Канарија у мали део саобраћаја (Пуштање Канарија)

  • Постепено повећавајте

  • Аутоматско враћање на кључне прагове (плаво-зелено распоређивање)

Шаблони за имплементацију који вам чувају здрав разум

И верзионишите своје крајње тачке или руте по верзији модела. Будућност ће вам бити захвална. Тренутност ће вам такође бити захвална, али тихо.


10) Безбедност, приватност и „молим вас, немојте откривати информације“ 🔐🙃

Обезбеђење има тенденцију да се појави касно, као непозвани гост. Боље га је позвати рано.

Практична контролна листа

  • Аутентификација и ауторизација (ко може да позове модел?)

  • Ограничавање брзине (заштита од злоупотребе и случајних олуја) (успоравање API гејтвеја)

  • Управљање тајнама (нема кључева у коду, нема кључева ни у конфигурационим датотекама...) (AWS Secrets Manager, Kubernetes Secrets)

  • Мрежне контроле (приватне подмреже, политике између сервиса)

  • Евиденције ревизије (посебно за осетљива предвиђања)

  • Минимизирање података (чувајте само оно што морате) (NIST SP 800-122)

Ако модел додирује личне податке:

  • идентификатори за редиговање или хеширање

  • избегавајте евидентирање сирових корисних оптерећења (NIST SP 800-122)

  • дефинишите правила задржавања

  • проток података у документима (досадно, али заштитно)

Такође, брзо убризгавање и злоупотреба излаза могу бити важни за генеративне моделе. Додајте: (OWASP Топ 10 за LLM апликације, OWASP: Brzo убризгавање)

  • правила за чишћење уноса

  • филтрирање излаза где је то потребно

  • заштитне ограде за позивање алата или акције у бази података

Ниједан систем није савршен, али можете га учинити мање крхким.


11) Уобичајене замке (тј. уобичајене замке) 🪤

Ево класика:

Ако ово читате и мислите „да, радимо два од тих“, добродошли у клуб. Клуб има грицкалице и благи стрес. 🍪


12) Закључак - Како применити вештачку интелигенцију модела без губитка разума 😄✅

Примена је место где вештачка интелигенција постаје прави производ. Није гламурозно, али се ту зарађује поверење.

Кратак резиме

И да, „Како применити вештачку интелигенцију“ у почетку може деловати као жонглирање запаљеним куглашким куглашким куглама. Али када се ваш процес стабилизује, постаје чудно задовољавајуће. Као да коначно организујете претрпану фиоку... само што је фиока производни саобраћај.

Пример из стварног света: Примена модела тријаже захтева за подршку

Сценарио

Замислите измишљену, али реалистичну SaaS компанију са 12 агената за подршку и око 900 захтева корисника недељно. Тим жели вештачку интелигенцију која класификује долазне захтеве по категорији, хитности и предложеном усмеравању пре него што људски агент одговори.

Ово није потпуно аутоматизовани бот за подршку. Модел не шаље одговоре корисницима. Он једноставно помаже у бржем усмеравању захтева, означавању ризичних случајева и пружању агентима јаснијег почетног положаја.

Најбољи образац имплементације овде је обично API инференција у реалном времену. Свака нова заявка уђе у службу за помоћ, вештачка интелигенција је процењује у року од неколико стотина милисекунди, а служба за помоћ чува предвиђену категорију, приоритет, оцену поузданости и верзију модела.

Шта је потребно асистенту

Корисни уноси:

предмет карте

тело захтева

тип плана за кориснике

регион налога

област производа, ако је већ позната

претходни број карата у последњих 30 дана

Корисна правила:

никада не бележи сирове поруке корисника ако садрже личне податке

слање спорова о наплати, правних претњи, захтева за брисање налога и безбедносних проблема на људски преглед

аутоматско усмеравање само када је поузданост изнад дефинисаног прага, као што је 0,85

сачувајте верзију модела са сваким предвиђањем

враћање на ручну тријажу ако је услуга модела спора или недоступна

Пример упутства

Ви сте асистент за тријажу захтева за подршку. Класификујте сваки захтев у једну категорију: Наплата, Пријава, Извештај о грешци, Захтев за функцију, Отказивање налога, Безбедност или Остало.

Вратите категорију, ниво хитности, оцену поузданости, кратак разлог и препоручени ред за подршку.

Не измишљајте недостајуће чињенице. Ако захтев садржи правне, безбедносне информације, неуспело плаћање, брисање налога или љутити језик корисника, означите га за људски преглед.

Ако је поузданост испод 0,85, вратите „Ручни преглед“ као препоручени ред.

Пример излаза

Слаб излаз:

Категорија: Грешка
Приоритет: Висок
Пошаљи подршци.

Бољи излаз:

Категорија: Пријава
Хитност: Средња
Поузданост: 0,91
Препоручени ред: Приступ налогу
Разлог: Корисник не може да приступи свом налогу након ресетовања лозинке. Није поменута безбедносна претња или проблем са плаћањем.
Потребан је људски преглед: Не
Верзија модела: ticket-triage-v1.3

Бољи излаз је лакши за ревизију јер укључује оцену поузданости, одлуку о рутирању, разлог и верзију модела.

Како га тестирати

Пре него што пошаљете саобраћај уживо моделу, креирајте мали „златни сет“ стварних, али анонимизованих тикета.

Једноставан сет тестова може да укључује:

50 рачуна за наплату

50 пријавних тикета

50 извештаја о грешкама

30 захтева за отказивање

20 безбедносно осетљивих карата

20 збуњујућих или мешовитих карата

Затим проверите:

Да ли модел бира исту категорију као и човек који врши преглед?

Да ли исправно ескалира безбедносне, правне и отказне захтеве?

Да ли враћа „Ручни преглед“ када је поузданост ниска?

Да ли латенција p95 остаје испод циља тима?

Да ли услуга безбедно отказује када модел није доступан?

За имплементацију, прво користите тестирање у сенци. Пошаљите праве тикете новом моделу, али још немојте користити његова предвиђања. Упоредите његов резултат са нормалном људском тријажом током неколико дана. Ако су резултати стабилни, пређите на тестирање са 5% мање шансе, затим на 25%, па на 100%.

Резултат

Илустративан резултат, заснован на мерењу времена 100 пробних тикета пре и после коришћења тока посла:

Време ручне тријаже је смањено са 6 минута по карти на 1 минут и 40 секунди по карти

Тим је уштедео око 7,2 сата на 100 тикета

Слагање категорије са људским рецензентом било је 87% за златни сет од 220 карата

100% од 20 безбедносно осетљивих тестова је прослеђено на људски преглед

Латенција p95 је била 480 ms на корисним оптерећењима сличним продукцији

Латенција p99 је била 910 ms

Време враћања на претходну верзију је било мање од 2 минута јер је крајња тачка старог модела остала активна током издања Canary верзије

Ови бројеви нису универзални показатељи. То су примери мерења која тим може да репродукује мерењем времена задатака тријаже, упоређивањем предвиђања са означеним скупом тестова и тестирањем оптерећења крајње тачке са реалним корисним теретом тикета.

Шта може поћи по злу

Највећи ризик је превелико поверење у модел. Тикет означен као „ниска хитност“ и даље може да садржи озбиљан безбедносни проблем, посебно ако купац пише нејасно.

Друге уобичајене грешке:

коришћење углачаних тест тикета који се не подударају са правим тикетима купаца

евидентирање комплетних порука купаца са личним подацима

не чува верзију модела са сваким предвиђањем

аутоматско усмеравање сваке карте, чак и када је поузданост ниска

заборављање ручног резервног реда чекања

мерење просечне латенције, али игнорисање p95 и p99

омогућавање да старе категорије остану у моделу након што тим за подршку промени своје редове чекања

Практична информација

Добро имплементирање вештачке интелигенције не мора да почне са огромним замахом. Почните са једним уским радним током, једним јасним интерфејсом, једним златним скупом тестова и једном безбедном путањом враћања на претходну функцију. Ако модел штеди време без скривања ризика, имате имплементацију вредну скалирања.

Честа питања

Шта значи применити вештачку интелигенцију у производњи

Примена вештачке интелигенције (AI) модела обично подразумева много више од самог откривања API-ја за предвиђање. У пракси, то укључује паковање модела и његових зависности, избор обрасца сервирања (у реалном времену, пакетно, стримовање или на рубу мреже), скалирање са поузданошћу, праћење исправности и померања, као и подешавање безбедних путања примене и враћања на претходни ниво. Чврсто примена остаје предвидљиво стабилна под оптерећењем и остаје дијагностикована када нешто крене наопако.

Како бирати између распоређивања у реалном времену, групног, стриминг или распоређивања на рубу мреже

Изаберите образац распоређивања на основу тога када су потребна предвиђања и ограничења под којима послујете. API-ји у реалном времену одговарају интерактивним искуствима где је латенција важна. Групно бодовање најбоље функционише када су кашњења прихватљива, а исплативост предњачи. Стримовање одговара континуираној обради догађаја, посебно када семантика испоруке постане компликована. Примена на рубу мреже је идеална за рад ван мреже, приватност или захтеве за ултра-ниском латенцијом, иако је теже управљати ажурирањима и варијацијама хардвера.

Коју верзију треба користити да би се избегли проблеми са имплементацијом „ради на мом лаптопу“

Верзија је више од само тежина модела. Типично, желећете верзионисани артефакт модела (укључујући токенизаторе или мапе ознака), логику претходне обраде и функција, код закључивања и комплетно окружење за извршавање (Python/CUDA/системске библиотеке). Третирајте модел као артефакт издања са означеним верзијама и лаким метаподацима који описују очекивања шеме, белешке о евалуацији и позната ограничења.

Да ли да се имплементира са једноставним сервисом у стилу FastAPI-ја или са наменским сервером модела

Једноставан сервер апликација (приступ у стилу FastAPI-ја) добро функционише за ране производе или једноставне моделе јер задржавате контролу над рутирањем, аутентификацијом и интеграцијом. Сервер модела (у стилу TorchServe или NVIDIA Triton) може да обезбеди јаче групирање, конкурентност и ефикасност GPU-а одмах по инсталацији. Многи тимови се завршавају на хибриду: сервер модела за инференцију плус танак API слој за аутентификацију, обликовање захтева и ограничења брзине.

Како побољшати латенцију и пропусност без нарушавања тачности

Почните мерењем латенције p95/p99 на хардверу сличном продукцијском, са реалним корисним оптерећењем, јер мали тестови могу да заварају. Уобичајене полуге укључују групирање (бољи проток, потенцијално лошија латенција), квантизацију (мање и брже, понекад са скромним компромисима у погледу тачности), токове компајлирања и оптимизације (слично ONNX/TensorRT) и кеширање поновљених уноса или уграђивања. Аутоматско скалирање на основу дубине реда такође може спречити да латенција репа почне да расте.

Какво праћење је потребно поред „крајња тачка је активна“

Време непрекидног рада није довољно, јер услуга може изгледати здраво док квалитет предвиђања опада. Као минимум, пратите обим захтева, стопу грешака и расподелу латенције, плус сигнале засићења попут CPU/GPU/меморије и времена чекања у реду. За понашање модела, пратите расподелу улаза и излаза заједно са основним сигналима аномалија. Додајте провере померања које покрећу акцију уместо бучних упозорења и евидентирајте ИД-ове захтева, верзије модела и исходе валидације шеме.

Како безбедно увести нове верзије модела и брзо се опоравити

Третирајте моделе као пуна издања, са CI/CD цевоводом који тестира претходну и постпроцесну обраду, покреће провере интеграције у односу на „златни скуп“ и успоставља основну линију оптерећења. За имплементације, Canary издања постепено повећавају саобраћај, док плаво-зелена верзија одржава старију верзију активном за тренутни повратак. Shadow тестирање помаже у процени новог модела на стварном саобраћају без утицаја на кориснике. Враћање на старије верзије треба да буде механизам прве класе, а не накнадна мисао.

Најчешће замке приликом учења примене вештачке интелигенције

Неусклађеност између обуке и продукције је класичан случај: претходна обрада се разликује између обуке и продукције, а перформансе се неприметно деградирају. Још један чест проблем је недостатак валидације шеме, где промена узводно прекида улазе на суптилне начине. Тимови такође потцењују латенцију репа и превише се фокусирају на просеке, занемарују трошкове (неактивни графички процесори се брзо сабирају) и прескачу планирање враћања уназад. Праћење само времена рада је посебно ризично, јер „радно, али погрешно“ може бити горе него неактивно.

Референце

  1. Amazon Web Services (AWS) - Amazon SageMaker: Закључивање у реалном времену - docs.aws.amazon.com

  2. Амазон веб сервиси (АВС) - Групна трансформација у Амазон СејџМакеру - docs.aws.amazon.com

  3. Амазон веб сервиси (АВС) - Праћење модела Амазон СејџМакера - docs.aws.amazon.com

  4. Amazon Web Services (AWS) - Ограничавање захтева API Gateway-а - docs.aws.amazon.com

  5. Amazon Web Services (AWS) - AWS Secrets Manager: Увод - docs.aws.amazon.com

  6. Amazon Web Services (AWS) - Животни циклус окружења за извршавање AWS Lambda - docs.aws.amazon.com

  7. Google Cloud - Vertex AI: Примена модела на крајњу тачку - docs.cloud.google.com

  8. Google Cloud - Преглед праћења Vertex AI модела - docs.cloud.google.com

  9. Google Cloud - Vertex AI: Праћење искривљења и померања карактеристика - docs.cloud.google.com

  10. Блог о Google Cloud- - Проток података: режими стримовања тачно једном наспрам режима стримовања најмање једном - cloud.google.com

  11. Google Cloud - Режими стримовања Cloud Dataflow-а - docs.cloud.google.com

  12. Гугл SRE књига - Праћење дистрибуираних система - sre.google

  13. Google Research - Реп у размери - research.google

  14. ЛитеРТ (Гоогле АИ)ЛитеРТ прегледаи.гоогле.дев

  15. ЛитеРТ (Гоогле АИ)ЛитеРТ закључивање на уређајуаи.гоогле.дев

  16. Докер - Шта је контејнер? - docs.docker.com

  17. Докер - Најбоље праксе за изградњу Докера - docs.docker.com

  18. Кубернетес - Кубернетес Сецретс - кубернетес.ио

  19. Кубернетес - Аутоматско скалирање хоризонталног под-а - kubernetes.io

  20. Мартин Фаулер - Издање за канаринке - martinfowler.com

  21. Мартин Фаулер - Плаво-зелено распоређивање - martinfowler.com

  22. OpenAPI иницијатива - Шта је OpenAPI? - openapis.org

  23. JSON шема - (сајт наведен) - json-schema.org

  24. Протоколски бафери - Преглед протоколских бафера - protobuf.dev

  25. FastAPI - (сајт је наведен) - fastapi.tiangolo.com

  26. NVIDIA - Triton: Динамичко групирање и истовремено извршавање модела - docs.nvidia.com

  27. NVIDIA - Triton: Истовремено извршавање модела - docs.nvidia.com

  28. NVIDIA - Документација за Triton Inference Server - docs.nvidia.com

  29. PyTorch - TorchServe документација - docs.pytorch.org

  30. BentoML - Паковање за имплементацију - docs.bentoml.com

  31. Реј - Реј Сервирајте документе - docs.ray.io

  32. TensorFlow - Квантизација након тренинга (Оптимизација модела TensorFlow) - tensorflow.org

  33. TensorFlow - Валидација података TensorFlow-а: откривање нагиба између тренинга и сервирања - tensorflow.org

  34. ONNX - (референца на сајт) - onnx.ai

  35. ОННКС Рунтиме - Оптимизације модела - оннкрунтиме.аи

  36. NIST (Национални институт за стандарде и технологију) - NIST SP 800-122 - csrc.nist.gov

  37. arXiv - Картице модела за извештавање о моделима - arxiv.org

  38. Мајкрософт - Тестирање у сенци - microsoft.github.io

  39. OWASP - OWASP топ 10 за пријаве за мастер студије права - owasp.org

  40. OWASP GenAI Безбедносни пројекат - OWASP: Брза убризгавања - genai.owasp.org

Пронађите најновију вештачку интелигенцију у званичној продавници вештачке интелигенције

О нама

Назад на блог

Додатна честа питања

  • Како да знам који образац распоређивања да одаберем за свој вештачки интелигентни модел?

    Избор правог обрасца имплементације зависи од ваших специфичних потреба. Размотрите факторе као што су да ли су вам потребна предвиђања у реалном времену, да ли је пакетна обрада прихватљива или да ли ваша апликација захтева стримовање података. Процена ових фактора ће вас водити у избору између имплементације у реалном времену, пакетне, стримовања или имплементације на рубу мреже.

  • Које методе могу да користим да бих осигурао поновљивост примене мог вештачке интелигенције?

    Да би се осигурала репродуктивност, важно је верзионисати све аспекте имплементације модела, укључујући артефакт модела, логику карактеристика, код закључивања и окружење у којем се ваш модел покреће. Методично означавање верзија ће помоћи у спречавању проблема који се често описују као „ради на мом лаптопу“.

  • Како могу да пратим перформансе мог имплементираног вештачког интелигенцијског модела?

    Ефикасно праћење подразумева праћење различитих метрика као што су број захтева, стопе грешака, расподела кашњења и искоришћеност ресурса. Такође је кључно пратити понашање модела анализом расподеле улаза и излаза, осигуравајући да се свако померање података открије рано.

  • Које су неке најбоље праксе за увођење нових верзија модела?

    Да бисте безбедно увели нове верзије модела, имплементирајте CI/CD цевовод који укључује тестирање и валидацију у различитим фазама. Технике као што су „канари“ издања или „плаво-зелена“ имплементација вам омогућавају да постепено уводите нове верзије, а да притом имате једноставан план враћања уназад у случају да се појаве проблеми.

  • На које уобичајене замке треба да обратим пажњу приликом примене вештачке интелигенције (AI) модела?

    Будите опрезни са искривљењем у обучавању и пружању услуга, где се јављају неслагања између окружења за обуку модела и производног окружења. Друге уобичајене замке укључују превиђање валидације шеме, занемаривање праћења латенције репа и неуспех у планирању управљања трошковима. Увек се уверите да имате стратегију враћања на претходну фазу.

  • Колико су важне безбедност и приватност у имплементацији вештачке интелигенције?

    Безбедност и приватност су кључне компоненте имплементације вештачке интелигенције модела. Имплементирајте контроле за аутентификацију и ауторизацију, ограничавање брзине и управљање тајнама. Ако ваш модел обрађује личне податке, уверите се да су на снази праксе минимизирања података и да логови не садрже осетљиве информације.

  • Могу ли да користим и једноставан API и наменски сервер модела за своје имплементирање?

    Да, многи тимови се одлучују за хибридни приступ где користе модел сервер за закључивање и једноставан API за руковање аутентификацијом, обликовање захтева и ограничавање брзине. Овај приступ уравнотежује ефикасност и једноставност коришћења, што га чини погодним за многе сценарије примене.