Како ће вештачка интелигенција утицати на улогу инжењера података?

Вештачка интелигенција ће трансформисати улоге инжењера података аутоматизацијом понављајућих задатака попут SQL цртања и документације. Међутим, одговорности са високим нивоом власништва, као што су дефинисање уговора о подацима и управљање квалитетом података, и даље ће захтевати људску стручност.

Које делове инжењеринга података вештачка интелигенција може аутоматизовати?

Вештачка интелигенција се истиче у аутоматизацији задатака као што су генерисање SQL кода, креирање скела DBT модела и израда нацрта документације. Ово помаже инжењерима да ефикасније започну пројекте, али је људска валидација и даље неопходна како би се осигурала тачност.

Да ли ће инжењери података постати застарели са порастом вештачке интелигенције?

Иако одређени задаци могу бити аутоматизовани, улога инжењера података се развија уместо да нестаје. Инжењери ће се више фокусирати на дизајн система, одговорност и управљање, што ће их учинити вреднијим јер вештачка интелигенција помаже у поједностављивању основних задатака.

Зашто је људски надзор и даље важан код вештачке интелигенције у инжењерству података?

Људски надзор је кључан јер инжењеринг података често укључује двосмислену пословну логику и одговорност за исходе. Вештачка интелигенција може помоћи у изради решења, али не може у потпуности да управља сложеношћу управљања подацима и усклађености.

Које ће вештине бити неопходне за инжењере података како се алати вештачке интелигенције развијају?

Кључне вештине ће обухватати дизајн система, инжењеринг квалитета података, дефинисање уговора о подацима и ефикасну комуникацију. Ове области су кључне за обезбеђивање поузданости и усклађености, јер вештачка интелигенција обавља рутинске задатке.

Како вештачка интелигенција може побољшати сарадњу између инжењера података и других тимова?

Вештачка интелигенција може да поједностави техничке резултате, омогућавајући инжењерима података да ефикасније сарађују са тимовима за производе, безбедност и финансије. Ова промена омогућава инжењерима података да се фокусирају на дискусију о стандардима квалитета и очекивањима, а не само на кодирање.

Са којим изазовима се суочава вештачка интелигенција у инжењерству података?

Вештачка интелигенција се бори са обрадом двосмислених дефиниција и управљањем сложеним односима у пословној логици. Њена немогућност критичког размишљања или преговарања о дефиницијама значи да људски инжењери остају незаменљиви.

Како би инжењери података требало да приступе коришћењу вештачке интелигенције алата као што је GitHub Copilot?

Инжењери података треба да користе алате вештачке интелигенције као нацрте како би побољшали свој рад, уз одржавање јаких конвенција за валидацију и управљање. Ово укључује осигуравање да резултати испуњавају стандарде квалитета и да су у складу са организационим политикама.

Хоће ли вештачка интелигенција заменити инжењере података?

Кратак одговор: Вештачка интелигенција неће у потпуности заменити инжењере података; аутоматизоваће понављајуће послове као што су SQL израда, скелирање цевовода, тестови и документација. Ако је ваша улога углавном посао са ниским власништвом, вођен тикетима, она је изложенија; ако поседујете поузданост, дефиниције, управљање и реаговање на инциденте, вештачка интелигенција вас углавном чини бржим.

Кључне закључке:

Одговорност: Дајте приоритет одговорности за резултате, а не само брзој продукцији кода.

Квалитет: Изградите тестове, могућност посматрања и уговоре како би цевоводи остали поуздани.

Управљање: Заштита приватности, контроле приступа, задржавања података и ревизијских трагова остану у људском власништву.

Отпорност на злоупотребу: Третирајте резултате вештачке интелигенције као нацрте; прегледајте их како бисте избегли самоуверене погрешности.

Промена улоге: Проводите мање времена куцајући шаблонске шаблоне, а више времена дизајнирајући издржљиве системе.

Хоће ли вештачка интелигенција заменити инжењере података? Инфографика

Ако сте провели више од пет минута са тимовима за податке, чули сте рефрен - понекад шапутан, понекад изговорен преко састанка попут неочекиваног обрта: Хоће ли вештачка интелигенција заменити инжењере података?

И… разумем. Вештачка интелигенција може да генерише SQL, гради цевоводе, објашњава трагове стекова, прави нацрте DBT модела, чак и да предлаже шеме складишта са узнемирујућом самопоуздањем. GitHub Copilot за SQL О DBT моделима GitHub Copilot
Осећа се као да гледате виљушкар како учи да жонглира. Импресивно, помало алармантно, а нисте потпуно сигурни шта то значи за ваш посао 😅

Али истина је мање уредна од наслова. Вештачка интелигенција апсолутно мења инжењеринг података. Аутоматизује досадне, понављајуће делове. Убрзава тренутке „Знам шта желим, али не могу да се сетим синтаксе“. Такође ствара потпуно нове врсте хаоса.

Па хајде да то изложимо како треба, без оптимизма који се таласа руком или панике због предвиђања пропасти.

Чланци које бисте можда желели да прочитате након овог:

🔗 Хоће ли вештачка интелигенција заменити радиологе?
Како вештачка интелигенција за снимање мења ток рада, тачност и будуће улоге.

🔗 Хоће ли вештачка интелигенција заменити рачуновође?
Погледајте које рачуноводствене задатке вештачка интелигенција аутоматизује, а шта остаје људски.

🔗 Хоће ли вештачка интелигенција заменити инвестиционе банкаре?
Разумите утицај вештачке интелигенције на послове, истраживања и односе са клијентима.

🔗 Хоће ли вештачка интелигенција заменити агенте осигурања?
Сазнајте како вештачка интелигенција трансформише осигурање, продају и корисничку подршку.

Зашто се питање „вештачка интелигенција замењује инжењере података“ стално појављује 😬

Страх долази из веома специфичног места: инжењеринг података има много понављајућег посла.

Писање и рефакторисање SQL-а
Израда скрипти за унос података
Мапирање поља из једне шеме у другу
Креирање тестова и основне документације
Отклањање грешака у кваровима цевовода који су… донекле предвидљиви

Вештачка интелигенција је необично добра у понављајућим обрасцима. А део инжењеринга података је управо то - обрасци наслагани на обрасце. Предлози кода за GitHub Copilot

Такође, екосистем алата већ „скрива“ сложеност:

Управљани ELT конектори Fivetran документација
Бессерверско рачунарство AWS Lambda (бессерверско рачунарство)
Обезбеђивање складишта једним кликом
Оркестрација са аутоматским скалирањем - документација за Apache Airflow
Оквири декларативне трансформације Шта је DBT?

Дакле, када се појави вештачка интелигенција, може се осећати као последњи део. Ако је стек већ апстрахован и вештачка интелигенција може да напише код за спајање... шта преостаје? 🤷

Али ево ствари коју људи прескачу: инжењеринг података није углавном куцање. Куцање је лакши део. Тежи део је учинити да се мутна, политичка, променљива пословна стварност понаша као поуздан систем.

И вештачка интелигенција се и даље бори са том збрком. Људи се такође боре - само боље импровизују.

Шта инжењери података заправо раде цео дан (негламурозна истина) 🧱

Будимо искрени - назив посла „Инжењер података“ звучи као да правите ракетне моторе од чисте математике. У пракси, градите поверење.

Типичан дан је мање „измишљања нових алгоритама“ и више:

Преговарање са узводним тимовима о дефиницијама података (болно, али неопходно)
Истраживање зашто се метрика променила (и да ли је то стварно)
Рјешавање померања шеме и изненађења типа „неко је додао колону у поноћ“
Обезбеђивање да су цевоводи идемпотентни, обновљиви и видљиви
Креирање заштитних ограда како аналитичари низводно не би случајно направили бесмислене контролне табле
Управљање трошковима како се ваше складиште не би претворило у ватру новца 🔥
Обезбеђивање приступа, ревизија, усклађеност, политике задржавања података Принципи GDPR-а (Европска комисија) Ограничење складиштења (ICO)
Креирање производа са подацима које људи могу заправо користити без слања директних порука 20 питања

Велики део посла је друштвени и оперативни:

„Ко је власник овог стола?“
„Да ли је ова дефиниција и даље валидна?“
„Зашто CRM извози дупликате?“
„Можемо ли да пошаљемо ову метрику руководиоцима без срамоте?“ 😭

Вештачка интелигенција може да помогне са деловима овога, свакако. Али њена потпуна замена је... претерана.

Шта чини јаку верзију улоге инжењера података? ✅

Овај одељак је важан јер се у разговорима о замени обично претпоставља да су инжењери података углавном „градитељи цевовода“. То је као да претпоставимо да кувари углавном „сецкају поврће“. То је део посла, али није сам посао.

Јака верзија инжењера података обично значи да могу да ураде већину овога:

Дизајн за промене
. Подаци се мењају. Тимови се мењају. Алати се мењају. Добар инжењер гради системе који се не урушавају сваки пут када стварност кине 🤧
Дефинишите уговоре и очекивања
Шта значи „купац“? Шта значи „активан“? Шта се дешава када ред стигне са закашњењем? Уговори спречавају хаос више него што то чини елегантни код. Стандард уговора о отвореним подацима (ODCS) ODCS (GitHub)
Уградите видљивост у све.
Не само „да ли је покренуто“ већ „да ли је исправно покренуто“. Свежина, аномалије запремине, нулте експлозије, промене у дистрибуцији. Видљивост података (Dynatrace) Шта је видљивост података?
Правите компромисе као одрасла особа:
брзина наспрам исправности, цена наспрам латенције, флексибилност наспрам једноставности. Не постоји савршен цевовод, само цевоводи са којима можете живети.
Претворите пословне потребе у трајне системе.
Људи траже метрике, али оно што им је потребно је производ заснован на подацима. Вештачка интелигенција може да напише код, али не може магично да зна минске препреке пословања.
Ћутите податке
Највећи комплимент за платформу података је то што нико не прича о њој. Ненаметљиви подаци су добри подаци. Као водовод. Приметите их тек када откажу 🚽

Ако радите ове ствари, питање „Хоће ли вештачка интелигенција заменити инжењере података?“ почиње да звучи... помало чудно. Вештачка интелигенција може да замени задатке, а не власништво.

Где вештачка интелигенција већ помаже инжењерима података (и то је заиста сјајно) 🤖✨

Вештачка интелигенција није само маркетинг. Када се добро користи, она је легитиман мултипликатор силе.

1) Бржи SQL и трансформациони рад

Цртање сложених спојева
Писање функција прозора о којима радије не бисте размишљали
Претварање логике једноставног језика у скелете упита
Рефакторисање ружних упита у читљиве CTE-ове GitHub Copilot за SQL

Ово је огромно јер смањује ефекат „празне странице“. И даље је потребно да валидирате, али почињете са 70% уместо са 0%.

2) Отклањање грешака и навигационе мрвице узрока

Вештачка интелигенција је добра у:

Објашњење порука о грешкама
Предлажење где тражити
Препоручујем кораке типа „провери неусклађеност шеме“ на GitHub Copilot-у.
То је као да имате неуморног млађег инжењера који никад не спава и понекад самоуверено лаже 😅

3) Обогаћивање документације и каталога података

Аутоматски генерисано:

Описи колона
Резимеи модела
Објашњења порекла
„За шта се користи ова табела?“ израђује нацрте документације за DBT

Није савршено, али прекида проклетство недокументованих цевовода.

4) Тестирање скеле и провере

Вештачка интелигенција може да предложи:

Основни нулти тестови
Провере јединствености
Идеје референцијалног интегритета
Тврдње у стилу „Ова метрика никада не би требало да се смањи“ тестови података DBT Велика очекивања: Очекивања

Опет - и даље ви одлучујете шта је важно, али то убрзава рутинске делове.

5) Код за „лепљење“ цевовода

Шаблони за конфигурацију, YAML скеле, оркестрациони DAG нацрти. Те ствари су понављајуће, а вештачка интелигенција једе понављајуће за доручак 🥣 Apache Airflow DAG-ови

Где се вештачка интелигенција и даље мучи (а то је суштина тога) 🧠🧩

Ово је део који је најважнији, јер одговара на питање замене са правом текстуром.

1) Двосмисленост и променљиве дефиниције

Пословна логика ретко је јасна. Људи мењају мишљење усред реченице. „Активни корисник“ постаје „активни корисник који плаћа“, постаје „активни корисник који плаћа, искључујући повраћај новца осим понекад“... знате како је.

Вештачка интелигенција не може да прихвати ту двосмисленост. Може само да погађа.

2) Одговорност и ризик

Када се цевовод поквари и извршна контролна табла приказује бесмислице, неко мора:

тријажа
комуницирати утицај
поправи то
спречити поновно појављивање
написати обдукцију
одлучити да ли предузеће и даље може веровати бројкама од прошле недеље

Вештачка интелигенција може да помогне, али не може бити одговорна на смислен начин. Организације не функционишу на основу вибрација - оне функционишу на основу одговорности.

3) Системско размишљање

Платформе података су екосистеми: унос, складиштење, трансформације, оркестрација, управљање, контрола трошкова, SLA-ови. Промена у једном слоју се таласа. Концепти Apache Airflow-а

Вештачка интелигенција може да предложи локалне оптимизације које стварају глобални проблем. То је као да поправљате шкрипава врата уклањањем врата 😬

4) Безбедност, приватност, усклађеност

Овде фантазије о замени умиру.

Контроле приступа
Безбедност на нивоу редова Политике приступа редовима за Snowflake Безбедност на нивоу редова за BigQuery
Обрада личних података NIST Privacy Framework
Правила задржавања Ограничење складиштења (ICO) Смернице ЕУ о задржавању
Ревизијски записи NIST SP 800-92 (управљање логовима) CIS Control 8 (Управљање логовима ревизије)
Ограничења смештаја података

Вештачка интелигенција може да креира политике, али њихова безбедна имплементација је прави инжењеринг.

5) „Непознате непознанице“

Инциденти са подацима су често непредвидиви:

API добављача тихо мења семантику
Претпоставка о временској зони се мења
Затрпавање дуплира партицију
Механизам поновног покушаја узрокује двоструко писање
Нова карактеристика производа уводи нове обрасце догађаја

Вештачка интелигенција је слабија када ситуација није познати образац.

Табела за поређење: шта шта смањује у пракси 🧾🤔

Испод је практичан поглед. Не „алати који замењују људе“, већ алати и приступи који смањују одређене задатке.

Алат / приступ	Публика	Вибрација цена	Зашто то функционише
Копилоти за вештачку интелигенцију (SQL + Python помоћници) GitHub Copilot	Инжењери који пишу много кода	Од бесплатног до плаћеног	Одличан у скеловању, рефакторисању, синтакси… понекад самозадовољан на веома специфичан начин
Управљани ELT конектори Fivetran	Тимови су уморни од изградње уноса података	Претплата	Уклања проблем са прилагођеним уносом, али се прекида на забавне нове начине
Платформе за видљивост података Видљивост података (Dynatrace)	Свако ко поседује SLA-ове	Средње до велико предузеће	Рано открива аномалије - попут детектора дима за цевоводе 🔔
Оквири трансформације (декларативно моделирање) dbt	Хибриди аналитике + дигиталног развоја	Обично алат + рачунарство	Чини логику модуларном и тестираном, мање „шпагета“
Каталози података + семантички слојеви dbt семантички слој	Организације са забуном око метрика	Зависи, у пракси	Дефинише „истину“ једном - смањује бескрајне метричке дебате
Оркестрација са шаблонима Apache Airflow	Тимови оријентисани на платформу	Трошкови отварања + операције	Стандардизује радне процесе; мање DAG-ова типа „снежица“
Генерисање DBT докумената уз помоћ вештачке интелигенције	Тимови који мрзе писање докумената	Јефтино до умерено	Прави „довољно добре“ документе како знање не би нестало
Политике аутоматизованог управљања NIST оквир за приватност	Регулисана окружења	Enterprise-y	Помаже у спровођењу правила - али и даље захтева људе да их осмисле

Обратите пажњу шта недостаје: ред који каже „притисните дугме да бисте уклонили инжењере података“. Да… тај ред не постоји 🙃

Дакле... хоће ли вештачка интелигенција заменити инжењере података или ће само променити улогу? 🛠️

Ево не драматичног одговора: вештачка интелигенција ће заменити делове тока рада, а не професију.

Али то ће реконфигурисати улогу. И ако то игноришете, осетићете притисак.

Шта се мења:

Мање времена за писање шаблона
Мање времена за претрагу докумената
Више времена за преглед, валидацију, дизајнирање
Више времена за дефинисање уговора и очекивања квалитета Стандард уговора о отвореним подацима (ODCS)
Више времена за партнерство са производима, безбедношћу и финансијама

Ово је суптилна промена: инжењеринг података постаје мање усмерен на „изградњу цевовода“ и више на „изградњу поузданог система производа података“

И у тихом преокрету, то је вредније, а не мање.

Такође - и рећи ћу ово чак и ако звучи драматично - вештачка интелигенција повећава број људи који могу да производе артефакте података, што повећава потребу за неким ко ће целу ствар одржавати здравом разумном. Више резултата значи већу потенцијалну забуну. GitHub Copilot

То је као да свима дате бушилицу. Одлично! Сада неко треба да спроведе правило „молим вас, не бушите у водоводну цев“ 🪠

Нови скуп вештина који остаје вредан (чак и са вештачком интелигенцијом свуда) 🧠⚙️

Ако желите практичну контролну листу „припремљену за будућност“, она изгледа овако:

Начин размишљања о дизајну система

Моделирање података које преживљава промене
Компромиси између пакетног и стриминг програма
Размишљање о латенцији, трошковима и поузданости

Инжењеринг квалитета података

Уговори, валидације, откривање аномалија Стандард уговора о отвореним подацима (ODCS) Видљивост података (Dynatrace)
SLA, SLO, навике реаговања на инциденте
Анализа узрока са дисциплином (не вибрацијама)

Архитектура управљања и поверења

Шаблони приступа
Ревизибилност NIST SP 800-92 (управљање логовима)
Приватност по дизајну NIST оквир за приватност
Смернице ЕУ о задржавању података у управљању животним циклусом података

Платформско размишљање

Шаблони за вишекратну употребу, златне стазе
Стандардизовани обрасци за унос, трансформације, тестирање Fivetran dbt тестова података
Алати за самопослуживање који се не топе

Комуникација (да, стварно)

Писање јасних докумената
Усклађивање дефиниција
Рећи „не“ љубазно, али одлучно
Објашњавам компромисе, а да не звучим као робот 🤖

Ако то можете да урадите, питање „Хоће ли вештачка интелигенција заменити инжењере података?“ постаје мање претеће. Вештачка интелигенција постаје ваш егзоскелет, а не ваша замена.

Реални сценарији у којима се неке улоге инжењера података смањују 📉

У реду, брза провера реалности, јер није све само сунце и емоџији 🎉

Неке улоге су више изложене:

Улоге само за унос података где су све стандардни конектори Fivetran конектори
Тимови који углавном раде на репетитивним процесима извештавања са минималним нијансама домена
Организације у којима се инжењеринг података третира као „SQL мајмуни“ (оштро, али истинито)
Улоге са ниским нивоом власништва где је посао само тикете и копирање/лепљење

Вештачка интелигенција плус управљани алати могу смањити те потребе.

Али чак и тамо, замена обично изгледа овако:

Мање људи ради исти понављајући посао
Већи нагласак на власништву над платформом и поузданости
Прелазак на принцип „једна особа може да подржи више цевовода“

Дакле, да - обрасци броја запослених се могу променити. Улоге се развијају. Наслови се мењају. Тај део је стваран.

Ипак, верзија улоге са високим власништвом и високим поверењем остаје.

Завршни резиме 🧾✅

Хоће ли вештачка интелигенција заменити инжењере података? Не на чист, потпун начин како људи замишљају.

Вештачка интелигенција ће:

аутоматизовати понављајуће задатке
убрзајте кодирање, отклањање грешака и документацију GitHub Copilot за SQL dbt документацију
смањити трошкове производње цевовода

Али инжењеринг података се у основи односи на:

одговорност
дизајн система
поверење, квалитет и управљање Стандард уговора о отвореним подацима (ODCS) Оквир приватности NIST-а
претварање мутне пословне стварности у поуздане производе са подацима

Вештачка интелигенција може да помогне у томе... али то не „поседује“.

Ако сте инжењер података, потез је једноставан (не лак, али једноставан):
ослоните се на власништво, квалитет, платформско размишљање и комуникацију. Дозволите вештачкој интелигенцији да се бави шаблоном док се ви бавите деловима који су важни.

И да - понекад то значи бити одрастао у соби. Није гламурозно. Ипак, тихо моћно 😄

Хоће ли вештачка интелигенција заменити инжењере података?
Замениће неке задатке, преуредиће каријеру и учинити најбоље инжењере података још вреднијим. То је права прича.

Пример из стварног света: Изградња тока рада за преглед цевовода података уз помоћ вештачке интелигенције 🛠️

Сценарио

Замислите малу компанију за е-трговину са једним инжењером података, два аналитичара и веома познатим проблемом: финансијска контролна табла се стално поквари кад год добављач плаћања промени назив поља.

Тим не жели да вештачка интелигенција „поседује“ цевовод. То би било ризично. Уместо тога, користе вештачку интелигенцију као помоћника у првој верзији за рутинске, али важне послове: писање скелета DBT модела, предлагање тестова, израду документације и креирање контролне листе за преглед кода.

Људски инжењер података и даље је власник коначног дизајна, дефиниција података, правила приступа и имплементације у производњи. Вештачка интелигенција једноставно убрзава сложени средњи део процеса.

Шта је потребно радном току

Пре коришћења вештачке интелигенције, тим јој даје довољно контекста да би била корисна:

Постојећа шема табеле плаћања
Дефиниције циљних финансијских метрика, као што су „нето приход“, „износ повраћаја“ и „поравнато плаћање“
Конвенције именовања за DBT моделе
Примери одобрених тестова
Кратки уговор о подацима за фид плаћања
Правила за руковање личним подацима, неуспелим плаћањима, дупликатима и закаснелим записима
Узорак прошлих инцидената, укључујући шта је пошло по злу и како је то поправљено

Кључ није „тражити од вештачке интелигенције да изгради цевовод“. То је превише нејасно.

Јачи приступ је: „Ево наших правила, ево шеме, ево очекиваног понашања. Напишите нешто што можемо да прегледамо.“

Пример упутства

Помажете у изради DBT модела за наше податке о плаћањима. Користите шему и правила испод да бисте креирали модел првог пролаза, предложене DBT тестове и белешке о документацији.

Модел мора израчунати дневни поравнати приход по order_id и payment_provider. Искључите неуспела плаћања, искључите тест трансакције и одузмите повраћаје новца само када је refund_status = „confirmed“.

Не измишљајте колоне. Ако недостаје обавезна колона, наведите је под „Питања за људски преглед“ уместо да погађате.

Такође предложите тестове за јединственост, нулте вредности, прихваћене вредности и разумност прихода. Означите сваку логику која би могла утицати на финансијско извештавање.

Како га тестирати

Разуман тест је мали и намерно обичан:

Дајте вештачкој интелигенцији једну познато добру шему плаћања и проверите да ли избегава измишљање поља.
Дајте му једну шему са недостајућом колоном refund_status и видите да ли поставља питање уместо да погађа.
Покрените генерисани SQL на скупу података за припрему, а не на продукцији.
Упоредите резултат са 20 ручно проверених записа о плаћању.
Замолите аналитичара и инжењера података да прегледају дефиниције пре спајања.
Додајте прихваћене тестове у CI тако да цевовод настави да се проверава након распоређивања.

Важно је тестирати вештачку интелигенцију на начинима грешака којих се највише плашите: измишљене колоне, погрешна логика прихода, недостатак обраде повраћаја новца и тихи дуплирани редови.

Резултат

Илустративан резултат: заснован на мерењу времена три узорка задатака промене цевовода пре и после коришћења овог тока посла.

Пре коришћења вештачке интелигенције, инжењер је проводио око 5 сати и 30 минута по промени: отприлике 2 сата пишући SQL, 1 сат креирајући тестове, 45 минута пишући документацију, а остатак проверавајући граничне случајеве са финансијама.

Са вештачком интелигенцијом која се користила само за прве нацрте, иста врста промене трајала је око 2 сата и 10 минута. Највећа уштеда је постигнута од израде тест скела и нацрта документације, што је смањено са 1 сата и 45 минута на око 25 минута.

Корак људског прегледа је и даље трајао око 45 минута и не би требало да се уклања.

У тесту са три задатка, вештачка интелигенција је предложила 18 провера. Инжењер је прихватио 11, изменио 5 и одбацио 2 јер су претпоставили да пословна правила нису тачна. Тај број одбијања је важан: он доказује да је потребан преглед тока рада, а не слепо поверење.

Шта може поћи по злу

Вештачка интелигенција може учинити да цевовод изгледа комплетније него што јесте.

Уобичајене тачке квара укључују:

Измишљање колона које звуче уверљиво
Третирање повраћаја новца, повраћаја средстава и неуспелих плаћања као исте ствари
Проблеми са недостајућом временском зоном у дневном приходу
Предлагање генеричких тестова који не откривају финансијске грешке
Писање документације која звучи самоуверено, али крије несигурност
Заборављање правила приватности када узорци података садрже податке о купцима

Добро правило: вештачка интелигенција може да направи нацрт модела, али човек мора да одобри дефиниције, логику управљања новцем, контролу приступа и пуштање у производњу.

Практична информација

Вредна верзија вештачке интелигенције у инжењерству података није „замена инжењера података“. То је „уклоните празну страницу, а затим пажљиво прегледајте“.

То значи бржи SQL, брже тестове и бољу документацију при првом пролазу, док инжењер и даље поседује део који је најважнији: да ли су подаци тачни, поуздани, безбедни и објашњиви.

Честа питања

Хоће ли вештачка интелигенција потпуно заменити инжењере података?

У већини организација, вештачка интелигенција ће вероватније преузети одређене задатке него да ће потпуно избрисати ту улогу. Може убрзати израду SQL кода, скелирање цевовода, прве пролазе документације и креирање основних тестова. Али инжењеринг података такође носи власништво и одговорност, плус негламурозан посао претварања неуредне пословне стварности у поуздан систем. Тим деловима су и даље потребни људи да одлуче шта „исправно“ изгледа и да преузму одговорност када ствари дођу у питање.

Које делове инжењеринга података вештачка интелигенција већ аутоматизује?

Вештачка интелигенција најбоље функционише у понављајућим задацима: изради и рефакторисању SQL-а, генерисању скелета DBT модела, објашњавању уобичајених грешака и креирању нацрта документације. Такође може да креира тестове попут провера null вредности или јединствености и да генерише шаблонски „лепљиви“ код за алате за оркестрацију. Победа је замах - почињете ближе функционалном решењу - али и даље морате да потврдите исправност и осигурате да се уклапа у ваше окружење.

Ако вештачка интелигенција може да пише SQL и цевоводе, шта преостаје инжењерима података?

Много тога: дефинисање уговора о подацима, руковање померањем шеме и осигуравање да су цевоводи идемпотентни, видљиви и опорављиви. Инжењери података проводе време истражујући промене метрика, градећи заштитне ограде за кориснике низводних система и управљајући компромисима између трошкова и поузданости. Посао се често своди на изградњу поверења и одржавање платформе података „тихом“, што значи довољно стабилном да нико не мора да размишља о њој свакодневно.

Како вештачка интелигенција мења свакодневни рад инжењера података?

Обично скраћује шаблоне и „време претраживања“, тако да проводите мање времена куцајући, а више времена прегледавајући, валидирајући и дизајнирајући. Та промена помера улогу ка дефинисању очекивања, стандарда квалитета и образаца за вишекратну употребу, уместо ручног кодирања свега. У пракси ћете вероватно више радити на партнерству са производом, безбедношћу и финансијама - јер технички резултат постаје лакши за креирање, али тежи за управљање.

Зашто се вештачка интелигенција мучи са двосмисленим пословним дефиницијама попут „активног корисника“?

Пошто пословна логика није статична нити прецизна - она се мења усред пројекта и варира у зависности од заинтересоване стране. Вештачка интелигенција може да напише тумачење, али не може да преузме одговорност за одлуку када се дефиниције развијају или се појаве сукоби. Инжењеринг података често захтева преговоре, документовање претпоставки и претварање нејасних захтева у трајне уговоре. Тај рад на „људском усклађивању“ је кључни разлог зашто ова улога не нестаје чак ни када се алати побољшају.

Да ли вештачка интелигенција може безбедно да управља подацима, заштити приватности и усклађености?

Вештачка интелигенција може помоћи у изради политика или предлагању приступа, али безбедна имплементација и даље захтева прави инжењеринг и пажљив надзор. Управљање укључује контролу приступа, руковање личним подацима, правила задржавања, ревизорске трагове, а понекад и ограничења пребивалишта. То су подручја високог ризика где „скоро тачно“ није прихватљиво. Људи морају да дизајнирају правила, провере спровођење и остану одговорни за резултате усклађености.

Које вештине остају вредне за инжењере података како се вештачка интелигенција побољшава?

Вештине које чине системе отпорним: системско дизајнерско размишљање, инжењеринг квалитета података и стандардизација усмерена на платформу. Уговори, видљивост, навике реаговања на инциденте и дисциплинована анализа узрока постају још важнији када више људи може брзо да генерише артефакте података. Комуникација такође постаје диференцијатор - усклађивање дефиниција, писање јасне документације и објашњавање компромиса без драме су велики део очувања поузданости података.

Које су улоге у инжењерству података највише изложене ризику од вештачке интелигенције и алата за управљање?

Улоге уско фокусиране на понављајуће уношење података или стандардне цевоводе за извештавање су изложеније, посебно када управљани ELT конектори покривају већину извора. Посао са ниским власништвом, вођен тикетима, може се смањити јер вештачка интелигенција и апстракција смањују напор по цевоводу. Али ово обично изгледа као да мање људи ради понављајуће задатке, а не „нема инжењера података“. Улоге са високим власништвом, усмерене на поузданост, квалитет и поверење, остају трајне.

Како да користим алате попут GitHub Copilot-а или dbt-а са вештачком интелигенцијом, а да не створим хаос?

Третирајте излаз вештачке интелигенције као нацрт, а не као одлуку. Користите га за генерисање скелета упита, побољшање читљивости или креирање DBT тестова и докумената, а затим га валидирајте у односу на стварне податке и граничне случајеве. Упарите га са јаким конвенцијама: уговорима, стандардима именовања, проверама видљивости и праксама прегледа. Циљ је бржа испорука без жртвовања поузданости, контроле трошкова или управљања.

Референце

Европска комисија - Објашњење заштите података: принципи GDPR-а - commission.europa.eu
Канцеларија повереника за информације (ICO) - Ограничење складиштења - ico.org.uk
Европска комисија - Колико дуго се подаци могу чувати и да ли је потребно ажурирати их? - commission.europa.eu
Национални институт за стандарде и технологију (NIST) - Оквир за приватност - nist.gov
NIST центар за рачунарску безбедност (CSRC) - SP 800-92: Водич за управљање евиденцијом рачунарске безбедности - csrc.nist.gov
Центар за интернет безбедност (CIS) - Управљање евиденцијом ревизије (CIS контроле) - cisecurity.org
Документација за Snowflake - Политике приступа редовима - docs.snowflake.com
Документација за Google Cloud - BigQuery безбедност на нивоу редова - docs.cloud.google.com
БИТОЛ - Стандард уговора о отвореним подацима (ODCS) v3.1.0 - bitol-io.github.io
БИТОЛ (ГитХаб) - Стандард уговора о отвореним подацима - github.com
Apache Airflow - Документација (стабилна) - airflow.apache.org
Apache Airflow - DAG-ови (основни концепти) - airflow.apache.org
Документација dbt Labs - Шта је dbt? - docs.getdbt.com
Документација dbt Labs-а - О dbt моделима - docs.getdbt.com
Документација dbt Labs-а - Документација - docs.getdbt.com
Документација dbt Labs-а - Тестови података - docs.getdbt.com
Документација dbt Labs-а - dbt семантички слој - docs.getdbt.com
Фиветран документација - Почетак рада - fivetran.com
Фиветран - Конектори - fivetran.com
AWS документација - AWS Lambda водич за програмере - docs.aws.amazon.com
ГитХаб - ГитХаб Копилот - github.com
GitHub документација - Добијање предлога кода у вашем IDE-у помоћу GitHub Copilot-а - docs.github.com
Microsoft Learn - GitHub Copilot за SQL (VS Code екстензија) - learn.microsoft.com
Документација Dynatrace-а - Видљивост података - docs.dynatrace.com
DataGalaxy - Шта је видљивост података? - datagalaxy.com
Документација о Великим очекивањима - Преглед очекивања - docs.greatexpectations.io

Пронађите најновију вештачку интелигенцију у званичној продавници вештачке интелигенције

О нама

Назад на блог

Додатна честа питања

Како ће вештачка интелигенција утицати на улогу инжењера података?

Вештачка интелигенција ће трансформисати улоге инжењера података аутоматизацијом понављајућих задатака попут SQL цртања и документације. Међутим, одговорности са високим нивоом власништва, као што су дефинисање уговора о подацима и управљање квалитетом података, и даље ће захтевати људску стручност.
Које делове инжењеринга података вештачка интелигенција може аутоматизовати?

Вештачка интелигенција се истиче у аутоматизацији задатака као што су генерисање SQL кода, креирање скела DBT модела и израда нацрта документације. Ово помаже инжењерима да ефикасније започну пројекте, али је људска валидација и даље неопходна како би се осигурала тачност.
Да ли ће инжењери података постати застарели са порастом вештачке интелигенције?

Иако одређени задаци могу бити аутоматизовани, улога инжењера података се развија уместо да нестаје. Инжењери ће се више фокусирати на дизајн система, одговорност и управљање, што ће их учинити вреднијим јер вештачка интелигенција помаже у поједностављивању основних задатака.
Зашто је људски надзор и даље важан код вештачке интелигенције у инжењерству података?

Људски надзор је кључан јер инжењеринг података често укључује двосмислену пословну логику и одговорност за исходе. Вештачка интелигенција може помоћи у изради решења, али не може у потпуности да управља сложеношћу управљања подацима и усклађености.
Које ће вештине бити неопходне за инжењере података како се алати вештачке интелигенције развијају?

Кључне вештине ће обухватати дизајн система, инжењеринг квалитета података, дефинисање уговора о подацима и ефикасну комуникацију. Ове области су кључне за обезбеђивање поузданости и усклађености, јер вештачка интелигенција обавља рутинске задатке.
Како вештачка интелигенција може побољшати сарадњу између инжењера података и других тимова?

Вештачка интелигенција може да поједностави техничке резултате, омогућавајући инжењерима података да ефикасније сарађују са тимовима за производе, безбедност и финансије. Ова промена омогућава инжењерима података да се фокусирају на дискусију о стандардима квалитета и очекивањима, а не само на кодирање.
Са којим изазовима се суочава вештачка интелигенција у инжењерству података?

Вештачка интелигенција се бори са обрадом двосмислених дефиниција и управљањем сложеним односима у пословној логици. Њена немогућност критичког размишљања или преговарања о дефиницијама значи да људски инжењери остају незаменљиви.
Како би инжењери података требало да приступе коришћењу вештачке интелигенције алата као што је GitHub Copilot?

Инжењери података треба да користе алате вештачке интелигенције као нацрте како би побољшали свој рад, уз одржавање јаких конвенција за валидацију и управљање. Ово укључује осигуравање да резултати испуњавају стандарде квалитета и да су у складу са организационим политикама.