7.2Data- en classificatiebeheer

Door Sadia Vancauwenbergh (Universiteit Hasselt)

In onze huidige maatschappij lijkt het een gegeven dat meten gelijk staat aan weten. Toch kan een correcte gegevensinterpretatie enkel maar gebeuren wanneer alle stakeholders - van informatieleveranciers tot informatiegebruikers – bewust eenzelfde semantische invulling hanteren voor de gemeten indicatoren en classificaties. Data- en classificatiebeheer (DCB), is een methode die het mogelijk maakt om datastructuren semantisch te beschrijven en onderling te aligneren zodanig dat gegevens correct verzameld, opgeslagen, gebruikt en geïnterpreteerd kunnen worden door elkeen die hiermee in aanraking komt (Vancauwenbergh et al., 2016). De methode bouwt verder op de principes van business semantics management (De Leenheer, 2010), wat vooral onder invloed van de bankencrisis in 2007 een grote opleving kende, met invloeden vanuit terminological theory. De DCB methodiek is breed toepasbaar in allerhande sectoren waarbij gegevens uit verschillende datasystemen gecollecteerd en tezamen geïnterpreteerd worden. Dit dossier geeft een beknopte beschrijving van de methodiek en zijn toepasbaarheid voor het monitoren van indicatoren en classificaties die gebruikt worden bij de evaluatie van onderzoek en innovatie.

De DCB methode begint met het specifiëren van de rollen en verantwoordelijkheden voor wat betreft de creatie, de opslag, het gebruik, de archivering en de verwijdering van (onderzoeks)informatie en classificatiesystemen, teneinde het semantisch correct gebruik hiervan te waarborgen. Hiertoe voorziet de DCB methode voor alle termen die gehanteerd worden een semantische beschrijving volgens een iteratief proces. De methode vertrekt, volgens de principes van terminological theory, vanuit terminologieën die gebruikt worden bij indicatoren en classificaties en brengt in kaart hoe deze voor wat betreft hun linguïstische, thematische en situationele context geïnterpreteerd worden door de verschillende stakeholders (registratie) (Kockaert en Steurs, 2014). Vervolgens wordt een uitgebreide analyse gemaakt van de gelijkenissen en discrepanties van de gehanteerde connotaties (analyse), op basis waarvan een voorstel voor geharmoniseerde semantische beschrijving wordt geformuleerd (design). Deze beschrijving wordt expliciet voorgelegd aan de verschillende stakeholders, waarna deze de werkzaamheid ervan binnen hun eigen context toetsen (testing). Deze alternerende design en testing cycli worden verder doorlopen tot een geharmoniseerde semantische beschrijving gevonden wordt. Deze wordt vervolgens geëxpliciteerd aan de gebruikers van de gegevens en eventueel resterende discrepanties hiervan worden duidelijk meegegeven (implementatie). Doch, in tegenstelling tot het waterval model van Bell en Thayer (1976), stopt het proces van data- en classificatiebeheer hier niet. Integendeel, op basis van nieuwe ontwikkelingen of noden kunnen opeenvolgende cycli doorlopen worden (Boehm et al. 2000). Daarnaast dient tevens rekening gehouden te worden met de zogenaamde requirements’ volatility waarbij op elk moment deze noden kunnen veranderen en nieuwe wensen kunnen ontstaan bij zowel de informatieleveranciers als de –gebruikers (Takeuchi en Nonaka, 1986; Henry en Henry, 1993). Deze grote dynamiek dient nauwlettend gemonitord te worden door een data- and classification governance officer, die desgewenst opeenvolgende cycli van semantische harmoniseringen kan initiëren.

In Vlaamse context wordt de DCB methode reeds toegepast op diverse onderzoeksclassificaties die gebruikt worden voor rapporterings- en monitoringsdoeleinden. Het betreft hierbij zowel classificaties die verduidelijken vanuit welke bronnen onderzoekers hun financiering verkrijgen, alsook classificaties die de wetenschappelijke publicatie output van onderzoekers, hun bijhorende wetenschappelijke disciplines en technologie sectoren in kaart brengen. Daarnaast wordt de DCB methode ook toegepast op indicatoren die gebruikt worden in universitaire rankings, wat de veelzijdigheid van de methode illustreert.
De grote meerwaarde van DCB methode wordt echter pas gerealiseerd wanneer de geharmoniseerde semantische beschrijvingen up-to-date geïntegreerd worden in informatieverzamelings- en verwerkingsprocessen. Dit laat immers toe om gegevens correct te verzamelen, te verwerken en te interpreteren daar de ambiguïteit geëlimineerd wordt die thans ontstaat wanneer meerdere partijen termen interpreteren volgens hun eigen context, kennisdomein en taalgebruik. 

Referenties

Bell, T.E., Thayer, T.A. (1976) Software requirements: Are they really a problem? Proceedings of the 2nd international conference on Software engineering. IEEE Computer Society Press.

Boehm B. (1986) A Spiral Model of Software Development and Enhancement, ACM SIGSOFT Software Engineering Notes, ACM, 11(4):14-24.

De Leenheer, P., Christiaens, S., & Meersman, R. (2010). Business semantics management: A case study for competency-centric HRM. Computers in Industry, 61(8), 760–775.

Henry, J., Henry, S. (1993) Quantitative assessment of the software maintenance process and requirements volatility. In Proc. of the ACM Conference on Computer Science, pages 346–351.

Kockaert, H.J.; Steurs, F. (2014) Handbook of Terminology, Volume 1, Amsterdam, Philadelphia, John Benjamins.

Takeuchi, H. Nonaka, I. (2010) New New Product Development Game. Harvard Business Review. Retrieved June 9.

Vancauwenbergh, S., De Leenheer, P., Van Grootel, G. (2016) On research information and classification governance in an inter-organizational context: the Flanders Research Information Space. Scientometrics 108:425.