Одакле вештачка интелигенција добија информације

Одакле вештачка интелигенција добија своје информације?

Да ли сте икада седели ту и чешкали се по глави, као... одакле ово заправо долази ? Мислим, вештачка интелигенција не претура по прашњавим библиотечким хрпама нити гледа кришом кратке филмове са Јутјуба. Па ипак, некако избацује одговоре на све - од трикова за лазање до физике црних рупа - као да унутра има неки бескрајни ормар за документе. Стварност је чуднија, а можда и интригантнија него што бисте претпоставили. Хајде да је мало разјаснимо (и да, можда успут разбијемо неколико митова).


Да ли је то врачање? 🌐

Није чаробњаштво, мада се понекад тако чини. Оно што се дешава „испод хаубе“ је у основи предвиђање образаца . Модели великих језика (LLM) не чувају чињенице на начин на који се ваш мозак држи рецепта за колачиће ваше баке; уместо тога, они су обучени да погоде следећу реч (токен) на основу онога што је било пре [2]. У пракси, то значи да се хватају за везе: које речи се слажу заједно, како реченице обично добијају облик, како се целе идеје граде попут скеле. Зато излаз звучи исправно, иако – потпуно искрено – то је статистичка мимикрија, а не разумевање [4].

Па шта заправо чини информације генерисане вештачком интелигенцијом корисним ? Неколико ствари:

  • Разноликост података - црпљење из безброј извора, а не из једног уског тока.

  • Ажурирања - без циклуса освежавања, брзо застарева.

  • Филтрирање - идеално хватање смећа пре него што уђе (мада, будимо реални, та мрежа има рупе).

  • Унакрсна провера - ослањање на ауторитетне изворе (помислите на НАСА-у, СЗО, велике универзитете), што је неопходно у већини приручника за управљање вештачком интелигенцијом [3].

Ипак, понекад измишља - са самопоуздањем. Те такозване халуцинације ? У основи, углачане глупости изговорене озбиљног лица [2][3].

Чланци које бисте можда желели да прочитате након овог:

🔗 Може ли вештачка интелигенција предвидети бројеве лутрије
Истраживање митова и чињеница о предвиђањима лутрије помоћу вештачке интелигенције.

🔗 Шта значи усвојити холистички приступ вештачкој интелигенцији
Разумевање вештачке интелигенције са уравнотеженим перспективама о етици и утицају.

🔗 Шта Библија каже о вештачкој интелигенцији
Испитивање библијских перспектива о технологији и стварању човека.


Брзо поређење: Одакле вештачка интелигенција црпи 📊

Није сваки извор једнак, али сваки игра своју улогу. Ево кратког прегледа.

Тип извора Ко га користи (AI) Цена/вредност Зашто функционише (или не...)
Књиге и чланци Велики језички модели Непроцењиво (отприлике) Густо, структурирано знање - једноставно брзо стари.
Веб странице и блогови Скоро све вештачке интелигенције Слободно (са шумом) Дивља сорта; мешавина бриљантности и апсолутног смећа.
Академски радови Вештачке интелигенције са великим истраживачким напорима Понекад је претплаћено Ригорозност + кредибилитет, али умотано у тешки жаргон.
Кориснички подаци Персонализоване вештачке интелигенције Веома осетљиво ⚠️ Оштро кројење, али главобоље са приватношћу у изобиљу.
Веб у реалном времену Вештачке интелигенције повезане са претрагом Бесплатно (ако је онлајн) Одржава информације свежим; мана је ризик од ширења гласина.

Универзум података за обуку 🌌

Ово је фаза „учења у детињству“. Замислите да детету дате милионе књига са причама, исечака из вести и Википедијиних „зечјих рупа“ одједном. Тако изгледа претходна обука. У стварном свету, провајдери спајају јавно доступне податке, лиценциране изворе и текст који генеришу тренери [2].

Слојеви на врху: курирани људски примери - добри одговори, лоши одговори, подстицаји у правом смеру - пре него што појачање уопште почне [1].

Упозорење у вези са транспарентношћу: компаније не откривају сваки детаљ. Неке заштитне ограде су тајност (интелектуална својина, безбедносни проблеми), тако да добијате само делимичан увид у стварни процес [2].


Претрага у реалном времену: Додатни прелив 🍒

Неки модели сада могу да завире изван свог „облака за обуку“. То је генерисање проширено претраживањем (RAG) - у основи извлачење делова из живог индекса или складишта докумената, а затим њихово уплитање у одговор [5]. Идеално за брзо променљиве ствари попут наслова вести или цена акција.

У чему је проблем? Интернет је подједнако генијалан и ватреан. Ако су филтери или провере порекла слаби, ризикујете да се нежељени подаци увуку назад - управо на шта упозоравају оквири за процену ризика [3].

Уобичајено решење: компаније повезују моделе са сопственим интерним базама података, тако да одговори наводе тренутну HR политику или ажурирану документацију производа уместо да се претерано користе. Размислите: мање „ух-ох“ тренутака, више поузданих одговора.


Фино подешавање: Фаза полирања вештачке интелигенције 🧪

Сирови, претходно обучени модели су неспретни. Зато се фино подешавају :

  • Учење да буду корисни, безопасни, искрени (путем учења са појачањем из људских повратних информација, RLHF) [1].

  • Брушење небезбедних или токсичних ивица (поравнање) [1].

  • Прилагођавање тону - било да је то пријатељски, формалан или разиграно саркастичан.

Није толико брушење дијаманта колико гурање статистичке лавине да би се понашао више као саговорник.


Неуспеси и неуспеси 🚧

Немојмо се претварати да је беспрекорно:

  • Халуцинације - јасни одговори који су потпуно погрешни [2][3].

  • Пристрасност - одражава обрасце уграђене у податке; може их чак и појачати ако се не контролише [3][4].

  • Без искуства из прве руке - може да прича о рецептима за супу, али никада није пробала ниједну [4].

  • Претерано самопоуздање - текст тече као да зна, чак и када не зна. Оквири ризика наглашавају претпоставке обележавања [3].


Зашто се осећа као да знаш 🧠

Нема веровања, нема сећања у људском смислу, а свакако нема ни сопство. Па ипак, пошто глатко спаја реченице, ваш мозак то чита као да разуме . Оно што се дешава је само предвиђање следећег жетона масовних размера : обрађивање трилиона вероватноћа у делићу секунде [2].

Вибрација „интелигенције“ је емергентно понашање – истраживачи га, помало шаљиво, називају „стохастичког папагаја“ [4].


Аналогија за децу 🎨

Замислите папагаја који је прочитао све књиге у библиотеци. Не разуме приче , али може да преради речи у нешто што делује мудро. Понекад је потпуно тачно; понекад је бесмислица - али са довољно талента, не можете увек видети разлику.


Закључак: Одакле долазе информације вештачке интелигенције 📌

Једноставно речено:

  • Масивни подаци о обуци (јавни + лиценцирани + генерисани од стране тренера) [2].

  • Фино подешавање помоћу људских повратних информација ради обликовања тона/понашања [1].

  • Системи за преузимање података када су повезани са токовима података уживо [5].

Вештачка интелигенција не „зна“ ствари – она предвиђа текст . То је и њена супермоћ и Ахилова пета. Закључак? Увек проверавајте важне ствари у односу на поуздан извор [3].


Референце

  1. Оујанг, Л. и др. (2022). Обука језичких модела за праћење инструкција уз људске повратне информације (InstructGPT) . arXiv .

  2. OpenAI (2023). GPT-4 Технички извештај - мешавина лиценцираних, јавних и људски креираних података; циљ и ограничења предвиђања следећег токена. arXiv .

  3. NIST (2023). Оквир за управљање ризицима вештачке интелигенције (AI RMF 1.0) - порекло, поузданост и контроле ризика. PDF .

  4. Бендер, ЕМ, Гебру, Т., Макмилан-Мејџор, А., Мичел, С. (2021). О опасностима стохастичких папагаја: Да ли језички модели могу бити превелики? ПДФ .

  5. Луис, П. и др. (2020). Генерисање проширено претраживањем за НЛП интензивно знање . arXiv .


Пронађите најновију вештачку интелигенцију у званичној продавници вештачке интелигенције

О нама

Назад на блог