Шта је скуп података вештачке интелигенције?

Шта је скуп података вештачке интелигенције?

Ако градите, купујете или чак само процењујете вештачку интелигенцију (AI) системе, наићи ћете на једно варљиво једноставно питање: шта је AI скуп података и зашто је толико важан? Укратко: то је гориво, кувар, а понекад и компас за ваш модел. 

Чланци које бисте можда желели да прочитате након овог:

🔗 Како вештачка интелигенција предвиђа трендове
Истражује како вештачка интелигенција анализира обрасце како би предвидела будуће догађаје и понашања.

🔗 Како мерити перформансе вештачке интелигенције
Метрике и методе за процену тачности, ефикасности и поузданости модела.

🔗 Како разговарати са вештачком интелигенцијом
Смернице за креирање бољих интеракција ради побољшања одговора генерисаних вештачком интелигенцијом.

🔗 Шта подстиче вештачка интелигенција
Преглед како упити обликују резултате вештачке интелигенције и укупни квалитет комуникације.


Шта је скуп података вештачке интелигенције? Кратка дефиниција 🧩

Шта је скуп података вештачке интелигенције? То је колекција примера из којих ваш модел учи или на којима се процењује. Сваки пример има:

  • Улази - карактеристике које модел види, као што су исечци текста, слике, звук, табеларни редови, очитавања сензора, графикони.

  • Циљеви - ознаке или исходи које модел треба да предвиди, као што су категорије, бројеви, распони текста, акције или понекад ништа.

  • Метаподаци - контекст као што су извор, метод прикупљања, временске ознаке, лиценце, информације о сагласности и напомене о квалитету.

Замислите то као пажљиво спаковану кутију за ручак за вашу манекенку: састојци, етикете, нутритивне вредности и да, лепљива порука на којој пише „не једите овај део“. 🍱

За надгледане задатке, видећете улазе упарене са експлицитним ознакама. За ненадгледане задатке, видећете улазе без ознака. За учење са појачањем, подаци често изгледају као епизоде ​​или путање са стањима, акцијама, наградама. За мултимодални рад, примери могу комбиновати текст + слику + звук у једном запису. Звучи отмено; углавном је водоинсталатерски рад.

Корисни уводници и праксе: о листовима података за скупове података помаже тимовима да објасне шта је унутра и како треба да се користи [1], а картице модела допуњују документацију података на страни модела [2].

 

Скуп података вештачке интелигенције

Шта чини добар скуп података о вештачкој интелигенцији ✅

Будимо искрени, многи модели су успешни зато што скуп података није био лош. „Добар“ скуп података је:

  • Репрезентативан за стварне случајеве употребе, не само за лабораторијске услове.

  • Прецизно означено , са јасним смерницама и периодичним пресуђивањем. Метрике слагања (нпр. мере у капа стилу) помажу у провери доследности.

  • комплетан и уравнотежен да се избегне тихи квар код дугих репова. Неравнотежа је нормална; немар није.

  • Јасно порекло , са документованом сагласношћу, лиценцом и дозволама. Досадна папирологија спречава узбудљиве тужбе.

  • Добро документовано коришћењем картица са подацима или табела са подацима који наводе намењену употребу, ограничења и познате начине отказа [1]

  • Управља се верзијама, евиденцијама промена и одобрењима. Ако не можете да репродукујете скуп података, не можете да репродукујете модел. Смернице из NIST-овог оквира за управљање ризицима вештачке интелигенције третирају квалитет података и документацију као проблеме првог реда [3].


Врсте скупова података вештачке интелигенције, према томе шта радите 🧰

По задатку

  • Класификација - нпр. спам наспрам неспама, категорије слика.

  • Регресија - предвиђање континуиране вредности попут цене или температуре.

  • Означавање секвенци - именовани ентитети, врсте речи.

  • Генерисање - сумирање, превод, титловање слика.

  • Препорука - корисник, ставка, интеракције, контекст.

  • Детекција аномалија - ретки догађаји у временским серијама или логовима.

  • Учење појачавањем - стање, акција, награда, секвенце следећег стања.

  • Претраживање - документи, упити, процене релевантности.

По модалитету

  • Табеларно - колоне попут старости, прихода, одлива. Потцењено, брутално ефикасно.

  • Текст - документи, ћаскања, код, објаве на форуму, описи производа.

  • Слике - фотографије, медицински скенирања, сателитске плочице; са или без маски, кутије, кључне тачке.

  • Аудио - таласни облици, транскрипти, ознаке звучника.

  • Видео - фрејмови, временске анотације, ознаке акција.

  • Графови - чворови, ивице, атрибути.

  • Временске серије - сензори, финансије, телеметрија.

Под надзором

  • Означено (злато, сребро, аутоматски означено), слабо означено , неозначено , синтетичко . Куповна смеса за колаче може бити пристојна - ако прочитате упутство на кутији.


Унутар кутије: структура, поделе и метаподаци 📦

Робустан скуп података обично укључује:

  • Шема - типизирана поља, јединице, дозвољене вредности, руковање нултима.

  • Поделе - обука, валидација, тестирање. Држите податке о тестирању запечаћеним - третирајте их као последњи комад чоколаде.

  • План узорковања - како сте црпели примере из популације; избегавајте узорке из једног региона или уређаја.

  • Аугментације - окрети, усеци, шум, парафразе, маске. Добре су када су искрене; штетне када измишљају обрасце који се никада не дешавају у природи.

  • Верзирање - скуп података v0.1, v0.2… са дневницима промена који описују делте.

  • Лиценце и сагласност - права коришћења, редистрибуција и токови брисања. Национални регулатори заштите података (нпр. УК ИЦО) пружају практичне, законите контролне листе за обраду [4].


Животни циклус скупа података, корак по корак 🔁

  1. Дефинишите одлуку - шта ће модел одлучити и шта се дешава ако је погрешна.

  2. Карактеристике и ознаке обима - мерљиве, видљиве, етичке за прикупљање.

  3. Изворни подаци - инструменти, логови, анкете, јавни корпуси, партнери.

  4. Сагласност и правне информације - обавештења о приватности, искључивање, минимизирање података. Видите смернице регулатора за „зашто“ и „како“ [4].

  5. Прикупљање и складиштење - безбедно складиштење, приступ заснован на улогама, руковање личним подацима.

  6. Ознака - интерни анотатори, краудсорсинг, стручњаци; управљање квалитетом помоћу златних задатака, ревизија и метрика уговора.

  7. Очисти и нормализуј - дедуплицирајте, решите недостајуће елементе, стандардизујте јединице, поправите кодирање. Досадан, херојски посао.

  8. Поделите и валидирајте - спречите цурење; стратификујте где је то релевантно; преферирајте временски свесне поделе за временске податке; и пажљиво користите унакрсну валидацију за робусне процене [5].

  9. Документ - технички лист или картица са подацима; намена, упозорења, ограничења [1].

  10. Праћење и ажурирање - детекција померања, каденца освежавања, планови заласка. NIST-ов AI RMF оквири ову текућу петљу управљања [3].

Брз савет, примерен из стварног света: тимови често „победе у демо верзији“, али се спотичу у продукцији јер се њихов скуп података тихо мења - нове линије производа, преименовано поље или промењена политика. Једноставан дневник промена + периодична реанотација спречава већину тог проблема.


Квалитет података и евалуација - није тако досадно као што звучи 🧪

Квалитет је вишедимензионалан:

  • Тачност - да ли су ознаке исправне? Користите метрике слагања и периодично пресуђивање.

  • Потпуност - покријте области и предмете који су вам заиста потребни.

  • Доследност - избегавајте контрадикторне ознаке за сличне уносе.

  • Правовременост - застарели подаци фосилизују претпоставке.

  • Праведност и пристрасност - покривеност демографских група, језика, уређаја, окружења; почети са дескриптивним ревизијама, затим тестовима оптерећења. Праксе које прво стављају документацију (текстови података, картице модела) чине ове провере видљивим [1], а оквири управљања их истичу као контроле ризика [3].

За процену модела, користите одговарајуће поделе и пратите и просечне метрике и метрике најгоре групе. Сјајан просек може сакрити кратер. Основе унакрсне валидације су добро обрађене у стандардној документацији за алате машинског учења [5].


Етика, приватност и лиценцирање - заштитне ограде 🛡️

Етички подаци нису вибрација, то је процес:

  • Ограничење сагласности и сврхе - будите експлицитни у вези са употребом и правним основама [4].

  • Руковање личним подацима - минимизујте, псеудонимизујте или анонимизујте по потреби; размотрите технологију за побољшање приватности када су ризици високи.

  • Навођење ауторства и лиценце - поштујте ограничења дељења под истим условима и комерцијалне употребе.

  • Пристрасност и штетност - ревизија за лажне корелације („дневна светлост = безбедно“ биће веома збуњујуће ноћу).

  • Отклањање непоправљивих проблема - знати како уклонити податке на захтев и како вратити моделе обучене на њима (документовати ово у свом техничком листу) [1].


Колико је довољно велико? Димензионисање и однос сигнал-шум 📏

Правило: више примера обично помаже ако су релевантни и нису готово дупликати. Али понекад је боље имати мање примера, чистије и боље означене него гомиле неуредних.

Пазите на:

  • Криве учења - упоредите перформансе у односу на величину узорка да бисте видели да ли сте ограничени подацима или моделом.

  • Покривеност дугим репом - ретке, али критичне класе често захтевају циљано прикупљање, а не само већу количину.

  • Означи буку - измери, па смањи; мало је подношљиво, плимни талас није.

  • Померање дистрибуције - подаци за обуку из једног региона или канала се можда не могу генерализовати на други; валидирајте на подацима теста сличним циљу [5].

Када нисте сигурни, покрените мале пилот пројекте и проширите их. То је као зачињавање - додајте, пробајте, прилагодите, поновите.


Где пронаћи и управљати скуповима података 🗂️

Популарни ресурси и алати (тренутно нема потребе да памтите УРЛ адресе):

  • Скупови података о загрљајућем лицу - програмско учитавање, обрада, дељење.

  • Google претрага скупова података - мета-претрага широм веба.

  • UCI ML репозиторијум - одабрани класици за основне студије и наставу.

  • OpenML - задаци + скупови података + извршавања са пореклом.

  • AWS Open Data / Google Cloud Public Datasets - хостовани, велики корпуси.

Професионални савет: немојте само преузимати. Прочитајте лиценцу и технички лист , а затим документујте своју копију са бројевима верзија и пореклом [1].


Означавање и анотација - где се истина преговара ✍️

Анотација је место где се ваш теоријски водич за етикетирање бори са стварношћу:

  • Дизајн задатка - напишите јасна упутства са примерима и контрапримерима.

  • Обука за анотаторе - почетни одговори, покрените рунде калибрације.

  • Контрола квалитета - користите метрике споразума, механизме консензуса и периодичне ревизије.

  • Алати - изаберите алате који спроводе валидацију шеме и редове за преглед; чак и табеле могу да раде са правилима и проверама.

  • Повратне петље - забележите белешке анотатора и моделирајте грешке како бисте усавршили водич.

Ако вам се чини као да уређујете речник са три пријатеља који се не слажу око зареза... то је нормално. 🙃


Документација података - претварање имплицитног знања у експлицитно 📒

Лагани лист са подацима или картица са подацима треба да покрива:

  • Ко га је сакупљао, како и зашто.

  • Намењене употребе и употребе ван оквира.

  • Познати недостаци, пристрасности и начини отказа.

  • Протокол обележавања, кораци контроле квалитета и статистика споразума.

  • Лиценца, сагласност, контакт за проблеме, поступак уклањања.

Шаблони и примери: Листови података за скупове података и картице модела су широко коришћене полазне тачке [1].

Пишите га док градите, а не после. Меморија је нестабилан медијум за складиштење.


Табела за поређење - места за проналажење или хостовање скупова података вештачке интелигенције 📊

Да, ово је мало тврдоглаво. И формулација је намерно мало неуједначена. У реду је.

Алат / Складиште Публика Цена Зашто то функционише у пракси
Скупови података о загрљајућем лицу Истраживачи, инжењери Слободан ниво Брзо учитавање, стримовање, скрипте заједнице; одлична документација; верзионисани скупови података
Претрага скупова података на Google-у Сви Бесплатно Широка површина; одлично за откривање; понекад недоследни метаподаци
UCI ML репозиторијум Студенти, просветни радници Бесплатно Одабрани класици; мали али уредан; добар за основне теме и наставу
OpenML Истраживачи репродукције Бесплатно Задаци + скупови података + радови заједно; лепи трагови порекла
Регистар отворених података AWS-а Инжењери података Углавном бесплатно Хостинг на нивоу петабајта; приступ из облака; трошкови праћења одласка
Kaggle скупови података Практичари Бесплатно Лако дељење, скрипте, такмичења; сигнали заједнице помажу у филтрирању буке
Јавни скупови података Google Cloud-а Аналитичари, тимови Бесплатно + облак Хостовано у близини рачунара; BigQuery интеграција; опрез са наплатом
Академски портали, лабораторије Нишни стручњаци Варира Високо специјализовано; понекад недовољно документовано - ипак вреди тражити

(Ако ћелија изгледа брбљиво, то је намерно.)


Прављење вашег првог - практични комплет за почетнике 🛠️

Желите да пређете са „шта је скуп података о вештачкој интелигенцији“ на „направио сам један, ради“. Пробајте овај минимални пут:

  1. Напишите одлуку и метрику - нпр. смањите погрешне руте долазеће подршке предвиђањем правог тима. Метрика: макро-Ф1.

  2. Наведите 5 позитивних и 5 негативних примера - узорке правих карата; немојте фалсификовати.

  3. Направите нацрт водича за етикетирање - једна страница; експлицитна правила укључивања/искључивања.

  4. Прикупите мали, прави узорак - неколико стотина тикета у различитим категоријама; уклоните личне податке који вам нису потребни.

  5. Подела са проверама цурења - чувајте све поруке од истог купца у једној подели; користите унакрсну валидацију за процену варијансе [5].

  6. Анотирајте са QA - два анотатора на подскупу; решите неслагања; ажурирајте водич.

  7. Обучите једноставну основу - прво логистику (нпр. линеарни модели или компактни трансформатори). Поента је тестирати податке, а не освајати медаље.

  8. Прегледајте грешке - где не успева и зашто; ажурирајте скуп података, не само модел.

  9. Документ - мали технички лист: извор, водич за ознаке, поделе, позната ограничења, лиценца [1].

  10. Освежавање плана - стижу нове категорије, нови сленг, нови домени; закажите мала, честа ажурирања [3].

Више ћеш научити из ове петље него из хиљаду врућих снимака. Такође, прави резервне копије. Молим те.


Уобичајене замке које се украду тимовима 🪤

  • Цурење података - одговор се крије у карактеристикама (нпр. коришћење поља након решавања за предвиђање исхода). Осећа се као варање јер јесте.

  • Плитка разноликост - једна географија или уређај се маскира као глобални. Тестови ће открити заплет.

  • Померање ознака - критеријуми се мењају током времена, али водич за ознаке не. Документујте и верзионишите своју онтологију.

  • Недовољно дефинисани циљеви - ако не можете да дефинишете лошу прогнозу, ни ваши подаци неће.

  • Неуредне лиценце - крађа сада, извињење касније, није стратегија.

  • Прекомерно проширивање - синтетички подаци који уче нереалне артефакте, попут обуке кувара на пластичном воћу.


Кратка честа питања о самој фрази ❓

  • Да ли је „Шта је скуп података вештачке интелигенције?“ само ствар дефиниције? Углавном, али је такође сигнал да вам је стало до досадних делова који моделе чине поузданим.

  • Да ли су ми увек потребне ознаке? Не. Ненадзирана, самонадгледана и RL подешавања често прескачу експлицитне ознаке, али је курирање и даље важно.

  • Могу ли да користим јавне податке за било шта? Не. Поштујте лиценце, услове платформе и обавезе приватности [4].

  • Веће или боље? Идеално би било обоје. Ако морате да бирате, прво изаберите боље.


Завршне напомене - Шта можете да снимите екраном 📌

Ако вас неко пита шта је скуп података вештачке интелигенције , реците: то је курирана, документована колекција примера који подучавају и тестирају модел, обавијена управљањем како би људи могли да верују резултатима. Најбољи скупови података су репрезентативни, добро означени, правно чисти и континуирано одржавани. Остало су детаљи - важни детаљи - о структури, поделама и свим оним малим заштитним оградама које спречавају моделе да лутају у саобраћај. Понекад се процес чини као баштованство са табелама; понекад као чување пиксела. У сваком случају, инвестирајте у податке и ваши модели ће се понашати мање чудно. 🌱🤖


Референце

[1] Технички листови за скупове података - Gebru et al., arXiv. Линк
[2] Модел картице за извештавање о моделима - Mitchell et al., arXiv. Линк
[3] NIST оквир за управљање ризицима вештачке интелигенције (AI RMF 1.0) . Линк
[4] Смернице и ресурси за GDPR у Великој Британији - Канцеларија повереника за информације (ICO). Линк
[5] Унакрсна валидација: процена учинка процењивача - scikit-learn кориснички водич. Линк


Пронађите најновију вештачку интелигенцију у званичној продавници вештачке интелигенције

О нама

Назад на блог