Одакле вештачка интелигенција добија информације

Одакле вештачка интелигенција добија своје информације?

Да ли сте икада седели ту и чешкали се по глави, као... одакле ово заправо долази? Мислим, вештачка интелигенција не претура по прашњавим библиотечким хрпама нити гледа кришом кратке филмове са Јутјуба. Па ипак, некако избацује одговоре на све - од трикова за лазање до физике црних рупа - као да унутра има неки бескрајни ормар за документе. Стварност је чуднија, а можда и интригантнија него што бисте претпоставили. Хајде да је мало разјаснимо (и да, можда успут разбијемо неколико митова).

Да ли је то врачање? 🌐

Није чаробњаштво, мада се понекад тако чини. Оно што се дешава „испод хаубе“ је у основи предвиђање образаца. Модели великих језика (LLM) не чувају чињенице на начин на који се ваш мозак држи рецепта за колачиће ваше баке; уместо тога, они су обучени да погоде следећу реч (токен) на основу онога што је било пре [2]. У пракси, то значи да се хватају за везе: које речи се слажу заједно, како реченице обично добијају облик, како се целе идеје граде попут скеле. Зато излаз звучи исправно, иако – потпуно искрено – то је статистичка мимикрија, а не разумевање [4].

Па шта заправо чини информације генерисане вештачком интелигенцијом корисним? Неколико ствари:

Разноликост података - црпљење из безброј извора, а не из једног уског тока.
Ажурирања - без циклуса освежавања, брзо застарева.
Филтрирање - идеално хватање смећа пре него што уђе (мада, будимо реални, та мрежа има рупе).
Унакрсна провера - ослањање на ауторитетне изворе (помислите на НАСА-у, СЗО, велике универзитете), што је неопходно у већини приручника за управљање вештачком интелигенцијом [3].

Ипак, понекад измишља - са самопоуздањем. Те такозване халуцинације? У основи, углачане глупости изговорене озбиљног лица [2][3].

Чланци које бисте можда желели да прочитате након овог:

🔗 Може ли вештачка интелигенција предвидети бројеве лутрије
Истраживање митова и чињеница о предвиђањима лутрије помоћу вештачке интелигенције.

🔗 Шта значи усвојити холистички приступ вештачкој интелигенцији
Разумевање вештачке интелигенције са уравнотеженим перспективама о етици и утицају.

🔗 Шта Библија каже о вештачкој интелигенцији
Испитивање библијских перспектива о технологији и стварању човека.

Брзо поређење: Одакле вештачка интелигенција црпи 📊

Није сваки извор једнак, али сваки игра своју улогу. Ево кратког прегледа.

Тип извора	Ко га користи (AI)	Цена/вредност	Зашто функционише (или не...)
Књиге и чланци	Велики језички модели	Непроцењиво (отприлике)	Густо, структурирано знање - једноставно брзо стари.
Веб странице и блогови	Скоро све вештачке интелигенције	Слободно (са шумом)	Дивља сорта; мешавина бриљантности и апсолутног смећа.
Академски радови	Вештачке интелигенције са великим истраживачким напорима	Понекад је претплаћено	Ригорозност + кредибилитет, али умотано у тешки жаргон.
Кориснички подаци	Персонализоване вештачке интелигенције	Веома осетљиво ⚠️	Оштро кројење, али главобоље са приватношћу у изобиљу.
Веб у реалном времену	Вештачке интелигенције повезане са претрагом	Бесплатно (ако је онлајн)	Одржава информације свежим; мана је ризик од ширења гласина.

Универзум података за обуку 🌌

Ово је фаза „учења у детињству“. Замислите да детету дате милионе књига са причама, исечака из вести и Википедијиних „зечјих рупа“ одједном. Тако изгледа претходна обука. У стварном свету, провајдери спајају јавно доступне податке, лиценциране изворе и текст који генеришу тренери [2].

Слојеви на врху: курирани људски примери - добри одговори, лоши одговори, подстицаји у правом смеру - пре него што појачање уопште почне [1].

Упозорење у вези са транспарентношћу: компаније не откривају сваки детаљ. Неке заштитне ограде су тајност (интелектуална својина, безбедносни проблеми), тако да добијате само делимичан увид у стварни процес [2].

Претрага у реалном времену: Додатни прелив 🍒

Неки модели сада могу да завире изван свог „облака за обуку“. То је генерисање проширено претраживањем (RAG) -у основи извлачење делова из живог индекса или складишта докумената, а затим њихово уплитање у одговор [5]. Идеално за брзо променљиве ствари попут наслова вести или цена акција.

У чему је проблем? Интернет је подједнако генијалан и ватреан. Ако су филтери или провере порекла слаби, ризикујете да се нежељени подаци увуку назад - управо на шта упозоравају оквири за процену ризика [3].

Уобичајено решење: компаније повезују моделе са сопственим интерним базама података, тако да одговори наводе тренутну HR политику или ажурирану документацију производа уместо да се претерано користе. Размислите: мање „ух-ох“ тренутака, више поузданих одговора.

Фино подешавање: Фаза полирања вештачке интелигенције 🧪

Сирови, претходно обучени модели су неспретни. Зато се фино подешавају:

Учење да буду корисни, безопасни, искрени (путем учења са појачањем из људских повратних информација, RLHF) [1].
Брушење небезбедних или токсичних ивица (поравнање) [1].
Прилагођавање тону - било да је то пријатељски, формалан или разиграно саркастичан.

Није толико брушење дијаманта колико гурање статистичке лавине да би се понашао више као саговорник.

Неуспеси и неуспеси 🚧

Немојмо се претварати да је беспрекорно:

Халуцинације - јасни одговори који су потпуно погрешни [2][3].
Пристрасност - одражава обрасце уграђене у податке; може их чак и појачати ако се не контролише [3][4].
Без искуства из прве руке - може да прича о рецептима за супу, али никада није пробала ниједну [4].
Претерано самопоуздање - текст тече као да зна, чак и када не зна. Оквири ризика наглашавају претпоставке обележавања [3].

Зашто се осећа као да знаш 🧠

Нема веровања, нема сећања у људском смислу, а свакако нема ни сопство. Па ипак, пошто глатко спаја реченице, ваш мозак то чита као да разуме. Оно што се дешава је само предвиђање следећег жетона масовних размера: обрађивање трилиона вероватноћа у делићу секунде [2].

Вибрација „интелигенције“ је емергентно понашање – истраживачи га, помало шаљиво, називају „стохастичког папагаја“ [4].

Аналогија за децу 🎨

Замислите папагаја који је прочитао све књиге у библиотеци. Не разуме приче , али може да преради речи у нешто што делује мудро. Понекад је потпуно тачно; понекад је бесмислица - али са довољно талента, не можете увек видети разлику.

Закључак: Одакле долазе информације вештачке интелигенције 📌

Једноставно речено:

Масивни подаци о обуци (јавни + лиценцирани + генерисани од стране тренера) [2].
Фино подешавање помоћу људских повратних информација ради обликовања тона/понашања [1].
Системи за преузимање података када су повезани са токовима података уживо [5].

Вештачка интелигенција не „зна“ ствари – она предвиђа текст. То је и њена супермоћ и Ахилова пета. Закључак? Увек проверавајте важне ствари у односу на поуздан извор [3].

Референце

Оујанг, Л. и др. (2022). Обука језичких модела за праћење инструкција уз људске повратне информације (InstructGPT). arXiv.
OpenAI (2023). GPT-4 Технички извештај - мешавина лиценцираних, јавних и људски креираних података; циљ и ограничења предвиђања следећег токена. arXiv.
NIST (2023). Оквир за управљање ризицима вештачке интелигенције (AI RMF 1.0) - порекло, поузданост и контроле ризика. PDF.
Бендер, ЕМ, Гебру, Т., Макмилан-Мејџор, А., Мичел, С. (2021). О опасностима стохастичких папагаја: Да ли језички модели могу бити превелики? ПДФ.
Луис, П. и др. (2020). Генерисање проширено претраживањем за НЛП интензивно знање. arXiv.

Пронађите најновију вештачку интелигенцију у званичној продавници вештачке интелигенције

О нама

Назад на блог