2 Шта је SDMX

Last modified by Artur K. on 2025/09/12 15:31

2.1 Увод

Ово поглавље пружа неку позадину о SDMX Иницијативи, проблемима које SDMX решава, историји стандарда и смерница који су проистекли из ове иницијативе и областима у којима SDMX игра улогу данас. Ово поглавље такође пружа неке смернице о томе како потенцијални корисници треба да разматрају SDMX у вези са својим делом статистичког процеса.

SDMX пружа широк спектар техничких алата, а они – као и сваки други алати – ако се правилно користе, доносе позитивне резултате. SDMX такође пружа сет смерница о примени хармонизованих статистичких concepts према data sets, и како се они могу представити. Друге смернице се баве класификацијом статистичких података и области, као и хармонизацијом релевантне терминологије. Додатно, SDMX представља оквир за процес хармонизације унутар области. Сви ови различити аспекти су овде разматрани.

2.2 Позадина – Званична статистика

SDMX проистиче из света званичне статистике. Ако радите за националну или међународну статистичку агенцију, већ разумете „званичну статистику“, али многи људи који раде са статистичким подацима можда не разумеју ову област, па ћемо пружити кратак, високи опис.

„Званична статистика“ су подаци који се прикупљају и дистрибуирају од стране низа владиних и међународних организација како би се пружила чињенична основа за доношење политика и подржала истраживања. Неке земље имају „национални статистички уред“ (НСУ), док друге могу имати више владиних организација које су задужене за прикупљање статистичких података за владину употребу. Већина земаља такође има централне банке или сличне организације које прикупљају и дистрибуирају финансијске и економске податке.

Типично, неколико националних владиних организација има статистичку функцију (министарства образовања, правде, рада итд.).

Ове националне организације обично извештавају своје статистике низу наднационалних организација, које представљају или регије света (пример су Евростат и Европска централна банка) или области (пример су Светска здравствена организација, Организација за храну и пољопривреду, УНЕСЦО и Светска банка). Многе од ових организација припадају УН или су уговорне организације.

Све ове организације размењују, извештавају и дистрибуирају податке у ланцу који се може разумети као да почиње на најнижим нивоима у свакој земљи, и резултира високим data sets који су „агрегирани“ како се крећу кроз различите нивое како би достигли међународни ниво.

Систем званичне статистике је ова мрежа извештених података, према правним захтевима или другим типовима споразума. Постоји неколико важних састанака, конференција и иницијатива у овом систему, како би све организације усвојиле сличне приступе и технике и координисао извештавање: Конференција европских статистичара је важан састанак, као и састанак Статистичке комисије УН. Коначни циљ је да се мере важни феномени који се дешавају у свету и да се извештавају подаци до доносаца политика, студената, новинара и других корисника како би им помогли да информишу своје активности. Подаци су „званични“ јер долазе са репутацијом светских влада и међународних институција које стоје иза њих.

2.3 Историја SDMX-а и његови производи

2001. године, председници седам међународних статистичких институција су се окупили да формирају SDMX, са циљем да се предузму конкретни кораци ка решавању проблема око статистичке размене. Ове организације су постале спонзори SDMX Иницијативе: Банка за међународна поравнања, Европска централна банка, Евростат, Међународни монетарни фонд, Организација за економску сарадњу и развој, Статистичка дивизија УН и Светска банка. Они су створили иницијативу са управним комитетом спонзора и секретаријатом који је извршавао програм рада.

Проблеми се могу кратко описати на следећи начин:

Прикупљање, обрада и размена статистике је временски захтевно и ресурсно интензивно
Разне међународне и националне организације имају појединачне приступе за своје кориснике
Неварљивости (2001. године) о томе како наставити са новим технологијама (XML, веб услуге итд.)

Иницијатива SDMX је изјавила да ће се бавити овим проблемима:

Идентификовањем ефикаснијих процеса за размену и дељење података и метаподатака уз помоћ савремене технологије
Иницијални пројекти иницијативе, засновани углавном на раду који је већ био у току међу различитим организацијама спонзорима, били су:

Практична студија случаја о новим е-стандардима за размену података

Одржавање и напредовање постојећих стандарда за размену података временских серија
Креирање заједничког вокабулара за статистичке метаподатке
Развој оквира за
метаподатке metadata repositories

Додатно је изјављено да: „Нови стандарди треба да искористе нове веб-технологије и стручност оних који раде на пословним захтевима и ИТ подршци за прикупљање, компилацију и дистрибуцију статистичких информација.“

Тиме су циљеви SDMX иницијативе били они које су широко прихватиле организације спонзори и генерално статистичка заједница. Важно је разумети да су постојали неки чврсти темељи на којима SDMX је градило:

Постојећи стандард за размену статистичких података, познат као GESMES/TS, већ се користио међу неким од спонзорских организација и њиховим националним контрагентима. Ово није било засновано на модерним веб-технологијама као што је XML, већ је користило старији UN/EDIFACT синтаксу.
Рад на „заједничком вокабулару метаподатака“ био је заснован на многим годинама хармонизационог рада унутар заједнице, посебно на Евростатовом Concept and Definitions Database (CODED) и на OECD Glossary of Terms.

Формирање SDMX Иницијативе може се разумети као признање спонзорских организација да је заједничким радом на решавању ових проблема, и координацијом пословних приступа уз помоћ савремене, технологије засноване на стандардима, било најбоље кренути напред. У једном смислу, SDMX је еволуирало из ранијег рада, али је указало на повећану посвећеност коју су спонзори имали у достизању својих циљева. Такође представља окупљање напора око хармонизације статистичког садржаја и терминологије, и примене технологије која подржава статистичке процесе.

С vременом, рад SDMX Иницијативе се проширио, како у погледу садржаја оријентисаних радних производа тако и техничких. Овде ћемо описати еволуцију ових радних производа.

Иницијатива је рано одлучила да позиционира садржајно оријентисани рад и рад на технологији и стандардима тако да ова два правца рада буду одвојена али комплементарна. Садржајно оријентисани рад довео је до развоја SDMX Смерница садржајно оријентисане, док је технички рад резултирао SDMX Техничким спецификацијама. SDMX Technical Specifications Постојало је неколико разлога за овај приступ. Он је одражавао спознају да техничке спецификације морају бити врло прецизне и детаљне како би омогућиле аутоматизацију статистичких размена – програмирање рачунара се ослања на веома специфична правила о томе како апликације комуницирају, иначе комуникација неће успети. Техничке спецификације у једном смислу функционишу као протоколи размене за комуникацију машина са машинама (слично као HTTP, на пример, али са фокусом на конкретне статистичке размене). SDMX SDMX

Проблеми статистичког садржаја и терминологије су веома различити – они су предмет тумачења и анализе од стране обучених статистичара. Тако техничке спецификације чине основу за подршку раду на садржају, али су заправо веома другачији тип радног производа. Најлакше се види у чињеници да SDMX Content-Oriented Guidelines су guidelines, да помогну у сугерирању приступа људима у њиховом статистичком раду, док су SDMX Technical Specifications су specifications - правила за развој компјутерских апликација које се прилагођавају.

Још један разлог за ову подљелу је што се техничке спецификације и смернице садржаја очекивало да се одржавају различитим темпом – када су стабилне, техничке спецификације се обично ажурирају ређе. Такође, разлози за вршење ажурирања и промена у свакој области нису зависни једни од других, па је било разумно да их раздвојимо. Ово се одражава у чињеници да техничке спецификације предају и објављују кроз Међународну организацију за стандарде (ISO), која објављује многе ИТ стандардe у разним областима, док се content-oriented guidelines не подносе ISO-у, али се одржавају од стране SDMX Иницијативе самe. content-oriented guidelines Ово омогућава ажурирање

Трећи разлог за раздвајање SDMX Техничких стандарда и SDMX Content-Oriented Guidelines јер су они технолошка основа за размену any статистике – техничке спецификације су примењиве ван домена званичне статистике, док су content-oriented guidelines посебно дизајниране да буду корисне у том контексту (иако би могле бити корисне и ван те заједнице, могуће).

Ово координисано, али одвојено позиционирање два правца рада се такође показало као веома корисно, јер често статистичари и економисти немају дубоко знање о ИТ-у, а технолози немају дубоко знање о статистици. SDMX помаже у дефинисању тачке на којој две врсте експертизе треба да се координирају, да би се ефикасно користила ИТ решења у статистичким разменама и процесима.

У оквиру рада оријентисаног на садржај, постоји сет радних производа: The Content Oriented Guidelines, и 5 прилога:

Прекогранични Concepts
Прекогранични Codelists
Статистичке области предмета
Заједнички речник метаподатака
SDMX-ML за Content-Oriented Guidelines (Concepts, Code Lists, Category Scheme)

Ово се разматра детаљније у првом прилогу овог корисничког водича.

Тхе SDMX Technical Specifications су сада у верзији 2.1, али су и верзије 1.0 и 2.0 биле имплементиране. Верзија 1.0 спецификација има релативно ограничено покриће – модел за формате података и њихове структуре, као и XML и UN/EDIFACT формате за размену ових података. UN/EDIFACT формат био је компатибилан са GESMES/TS; XML формати су били нови. Такође је обезбеђена подршка за SDMX-базиране Web услуге: XML упитни документ и сет смерница о коришћењу других повезаних стандарда Web услуга (SOAP и WSDL).

Верзија 2.0 техничких спецификација имала је значајно проширен обим. Модел је проширен да укључи „reference metadata” као начин структуирања и форматирања метаподатака који се односе на оквире квалитета података, методолошке метаподатке и друге врсте метаподатака „фуснота”. Тако су додани XML формати за reference metadata додати су. Поред тога, додат је сет стандардизованих интерфејса у XML за интеракције са SDMX Registry додати су, за каталогизацију локације података и reference metadata преко интернета или унутар организације, као и за одржавање и преузимање структурних метаподатака.

У верзији 2.1, многе карактеристике из 2.0 су побољшане, а препоруке за Web услуге су проширене да укључе RESTful интерфејс, стандардне функције и поруке о грешкама. Сада је могуће развијати генерички интероперабилне апликације засноване на SDMX стандардима. Поред тога, различити XML формати података су поједностављени на основу искуства у имплементацији са верзијом 2.0.

За све врсте радних производа, постоје интерне ревизије унутар SDMX заједнице, као и јавне ревизије смерница и стандарда.

2.4 SDMX „Toolkit” приступ

Постоји много различитих елемената у SDMX сету смерница и спецификација, и може изгледати застрашујуће разматрати имплементацију свих њих. Важно је разумети филозофију иза овог сета алата. SDMX увек је озбиљно схватао идеју да ће различите организације имплементирати сопственим темпом и са својим циљевима. Колико год је то било могуће, признали су да инвестиције у постојеће системе треба заштитити, и да треба подржати постојећи садржај и процесе.

Резултат овог захтева био је „toolkit” приступ: SDMX пружа многе различите алате, али није неопходно да се сви усвоје или користе заједно. Заправо, многи алати су сада изграђени на основу детаљнијег сета components који се сами могу интегрисати у системе организације. Техничке спецификације описују број различитих типова усаглашености са спецификацијама, на основу којих делова спецификација се користе.

Следеће поглавље описује корисничке случајеве које SDMX подржава, али основна листа пословних апликација може бити дата:

Случајеви прикупљања SDMX као „пуштани” формат за извештавање података и метаподатака (извештавач шаље податке прикупљачу)
- SDMX as a “pull” reporting format for data and metadata (collector pulls data from reporter)
Случајеви дистрибуције
- SDMX за преузимање фајлова
- SDMX као упитни извор података
- SDMX за управљање приказом података и метаподатака на веб сајту
Случајеви складиштења података
- SDMX за екстракцију, трансформацију и учитавање података
- SDMX као модел за структуру складишта података или репозиторијума метаподатака

Различити делови стандарда се користе за сваки од ових случајева (и других), а спецификације су написане тако да дозволе да се само релевантни делови стандарда користе за било коју апликацију.

2.5 Применa SDMX унутар области

SDMX постала је веома широко коришћена у свету званичне статистике, толико да је тешко саставити свеобухватну листу корисника. Овај део покушава да карактерише тренутне кориснике SDMX – групу која ће вероватно расти не само у смислу броја, већ и у смислу ширине примена. Неке могућности су предложене на крају овог дела.

Ако погледамо најчешће употребе SDMX постоје две:

Употреба SDMX као формат за извештавање и прикупљање података, што је посебно распрострањено у заједници централних банака (због раније имплементације GESMES/TS, сада SDMX-EDI), као и међу статистичким агенцијама у Европи (такође корисници GESMES историјски, али имплементација је сада све више покретана пројектима као што је Eurostat-ов Census Hub);
Дистрибуција статистичких података са веб сајтова.

Друга апликација је она која се види у широком спектру институција, укључујући централне банке (ECB и Европски систем централних банака, BIS, Савезна резервна банка САД и Федерална резервна банка Њујорка, између осталих), друге институције спонзоре (IMF, Светска банка, OECD, итд.), и националне статистичке агенције (INEGI у Мексику, Statistics New Zealand, Australian Bureau of Statistics, статистичке канцеларије у Европском статистичком систему итд.)

Мање уобичајена али растућа употреба SDMX као основа за складишта података и друге форме управљања подацима. Можда је најбољи пример за то Европска централна банка, која је створила сва своја интерна складишта података на основу SDMX Information Model и остварила многе користи од тога. Они нису једина организација која разматра ову врсту имплементације, међутим – многе друге организације користе SDMX за управљање не само својим статистичким подацима, већ и за стварање metadata repositories и за интеграцију својих метаподатака и података.

Ако погледамо које statistical domains су били или постају главни корисници SDMX листа би изгледала овако (без одређеног реда):

Попис и демографија
Образовање
Финансијски и монетарни индикатори
Економски индикатори
Национални рачуни
Радна снага
Храна и пољопривреда, укључујући рибарство
Епидемиологија
Транспорт
Квалитет података
Индикатори развоја

Лако је видети да је ово широк и прекогранични сет statistical domains – у ствари, вероватно постоје веома ретке области у којима се SDMX не користи на неки начин данас, а горња листа је намењена као показатељ ширине прихватања.

SDMX била је званично подржана прво унутар европског статистичког система, а затим и од стране Статистичког комитета УН. Ове подршке су биле снажни подстицаји за организације да користе SDMX и резултат је широко прихваћен. Не постоје значајни конкуришући стандарди, што је спасило свет статистике од феномена који је успорио усвајање стандарда у неким другим заједницама.

Додатно, развила се јака култура развоја алата отвореног кода и бесплатних алата, што помаже у усвајању SDMX лакше. Ово је дошло како изнутра, тако и изван заједнице спонзора, а допуњено је све већим бројем алата који долазе и од комерцијалних добављача.

Да бисте сазнали више о доступним SDMX алатима, најбоље је консултовати SDMX Базу података о алатима, услугу коју пружају SDMX спонзори, повезану са www.sdmx.org.

И подршка за стандарде не долази само у облику алата – Фондација за отворене податке организује SDMX Кориснички форум у сарадњи са спонзорима, пружајући место где заједница може да интерагује онлајн, а веб сајт CIRCA Евростата пружа многе врсте ресурса, од видео тренинга до водича за студенте. Многе организације нуде SDMX личну обуку за различите нивое корисника. Најбоља једна тачка улаза је, наравно, сам SDMX веб сајт.

Гледајући унапред, SDMX све више се користи: на најновијој SDMX Глобалној конференцији одржаној у Вашингтону у мају 2011. године, Google је показао одређени интерес за SDMX као извор података за свој Data Explorer; сада постоји интерес за оснивање global registry тако да сви SDMX извори података и метаподатака могу бити лако пронађени. Додатно, видимо јаку могућност да свет корпоративне статистике може препознати корисност снажне основе стандарда у великој количини података који се данас прикупљају како би подржали апликације за пословну интелигенцију.