7.5.2Harmonisatie en standaardisatie

De complexiteit van wetenschaps- en technologiesystemen vergen communicatie- en interactieprocessen tussen alle actoren en agentschappen die bij de productie, verwerking en toepassing van kennis betrokken zijn. Dit vereist een continue informatie-uitwisseling. De adequate kwaliteit van alle gegevens is daarom een noodzakelijk criterium met het gevolg van een nodige harmonisatie en standaardisatie (Glänzel & Willems, 2016). Alle onderdelen in dit proces hebben hun eigen regels en standaarden. Enkele basisregels voor datadefinities en standaardzetting in het proces van data-integratie voor verschillende toepassingen zijn in Figuur 1 geschetst. Als pars-pro-toto geven we hierbij het voorbeeld van vakgebied-classificatiesystemen. Funding-organisaties, onderzoeksinstellingen en andere entiteiten gebruiken gegevens uit heterogene bronnen voor het toekennen van middelen. De evaluatie van onderzoek gebeurt op verschillende niveaus, van supranationale organisaties tot en met het regionale en lokale, institutionele niveau. In deze context speelt de vakgebiedenclassificatie een belangrijk rol, waarbij elk deelsysteem over een eigen classificatietype beschikt. Om een effectieve datatransfer tussen de verschillende instanties, niveaus en actoren te waarborgen, is een geschikte harmonisatie en, zo mogelijk, een bruikbare concordantie tussen deze types nodig. Zonder verlies aan algemeenheid kunnen we deze classificatietypes naar een viertal hoofdtypes reduceren:

  • Cognitief (inhoud-gerelateerd – gebruikt in bibliotheken, bibliografische en octrooi-databanken)
  • Administratief (verantwoordelijkheids- en functie-gerelateerd – toegepast door autoriteiten, funding-organisaties)
  • Organisatorisch (structuur-gebaseerd – gebruikt door instituties en organisaties naar gelang van hun interne organisatorische structuren)
  • Kwalificatie-gebaseerd (competentie-gerelateerd – geeft de competentie van individuen of groepen weer) 

Figuur 1. Schema van data-integratie voor verschillende doeleinden met interferentiepunten voor standaardisering

De co-existentie van deze verschillende types heeft belangrijke gevolgen want het is een potentiële bron van conflicten en problemen bij de data-harmonisatie. Zelfs binnen dezelfde types is de compatibiliteit niet gewaarborgd en daarom is een perfecte match of concordantie niet mogelijk. De koppeling van verschillende publicatie- en octrooidatabanken is hiervan een goed voorbeeld. Desondanks is het bij de cognitieve systemen nog wel mogelijk bijkomende cognitieve links toe te passen om mogelijke overeenstemmingen te identificeren. Ook zijn binnen elk type concordanties gemakkelijker mogelijk: de verwantschap van de taken in het beheer, onderwijs en financiering kenmerken zich door vergelijkbare structuren in hetzelfde land. De problemen bij de harmonisatie van vakgebiedsclassificaties zijn afhankelijk van de nationale wetenschapssystemen. Mogelijke conflicten ontstaan echter als gegevens tevens uit verschillende gestructureerde systemen gecombineerd moeten worden. Relevante illustratieve voorbeelden van problemen en mogelijke conflicten zijn in de inleidende studie door Daraio & Glänzel (2016a) samengevat.

Onlangs zijn enkele initiatieven gelanceerd met de bedoeling de noden voor data-harmonisering en standaardisering in kaart te brengen of zelfs elementaire informatie te standaardiseren, bijvoorbeeld:

  • CODATA,
  • het VIVO netwerk van wetenschappers, 
  • CERIF tracht de operatie van funding-organisaties te standaardiseren,
  • CASRAI streeft naar de standaardisatie van gegevens over onderzoekinstellingen en funders,
  • ISNI maakt lijsten en metadata over hoger onderwijs, onderzoek, funding en andere organisatietypes beschikbaar,
  • Ringgold heeft vooral betrekking op uitgeversactiviteiten.

We geven het voorbeeld van de onderzoeker-identificatie om de bovengenoemde problematiek te verduidelijken. Tevens is de identificatie van onderzoekers tot een heel belangrijk thema voor de integratie en combinatie van verschillende datatypes geëvolueerd. In principe zijn er twee fundamentele aanpakken voor de identificatiemodellen:

  1. Identificatie door de dataproducer (bijv. Mathematical Reviews Author ID bestaat sinds 1940, eerst manueel, sinds 1985 geautomatiseerd, of Elsevier’s AuthorID als geautomatiseerd proces met auteurfeedback),
  2. Identificatie door de onderzoekers zelf (bijv. Thomson Reuters ResearcherID of Open Researcher & Contributor ID (ORCID, http://orcid.org/), waarbij de auteurs zelf verantwoordelijk zijn voor hun IDs)

Beide benaderingen hebben voor- en nadelen, maar ambiguïteit en incorrectheid kan bij geen van de twee modellen volledig uitgesloten worden.