4.1.1Bibliometrische studies en bibliografische gegevensbestanden

Bibliometrische studies

Bibliometrische analyses van publicaties laten toe onderzoeksprestaties in kaart te brengen. Voor de wetenschapsbeoefening wordt hierbij een model gebruikt, waarvan we hier even de krijtlijnen schetsen. Fundamenteel onderzoek leidt tot nieuwe inzichten in de mens en zijn omgeving. De praktische toepassing van de resultaten van dit soort onderzoek zijn echter zelden onmiddellijk duidelijk en vragen vaak nog belangrijke investeringen. Fundamenteel onderzoek wordt dan ook grotendeels gefinancierd met publieke middelen. De resultaten ervan vormen een quasi-publiek goed. Ze maken deel uit van het cultureel en maatschappelijk patrimonium.

Publicaties in de open literatuur vormen de meest gebruikte maar niet enige manier om deze resultaten bekend te maken. Het is daarbij gebruikelijk dat onderzoekers door vermeldingen in voetnoten of in een referentielijst aangeven op welke wijze ze voortbouwden op eerder werk. Daarom kan men de wetenschap bestuderen aan de hand van de wetenschappelijke literatuur zelf, die tot op zekere hoogte een weerspiegeling vormt van deze wetenschappelijke activiteiten.

De diverse wetenschappelijke domeinen hebben wel een eigen typische onderzoeks- en publicatiecultuur. Zo spelen in de natuur- en levenswetenschappen tijdschriften een essentiële rol in de communicatie tussen vakgenoten. Daarnaast kunnen we opmerken dat ook voor de sociale wetenschappen (en in mindere mate de humane wetenschappen) de tijdschriftenliteratuur aan belang toeneemt. Voor de technische wetenschappen nemen bijkomend conferentieproceedings en rapporten een belangrijke plaats in. De natuur- en levenswetenschappen en ook de basisdisciplines in de technische wetenschappen zijn bovendien sterk internationaal gericht - waarbij het Engels dominant is bij de informatie-uitwisseling.

In deze disciplines kan dan ook een onderscheid worden gemaakt tussen de ‘centrale’ en de meer ‘perifere’ tijdschriften. De eerste zijn grosso modo de internationaal toonaangevende publicaties, met een goed functionerend referee-systeem. De andere zijn wat minder belangrijk en vaak meer nationaal georiënteerd.

Bibliometrische macro- en meso-analyses zijn vandaag de dag dan ook ondenkbaar zonder te vertrekken van een veelomvattende, multidisciplinaire bibliografische databank. Voor de bibliometrische analyse van de onderzoeksprestaties van landen, regio’s, instituten en onderzoeksgroepen is bovendien de recurrente beschikbaarheid van een citatie-index een noodzakelijke voorwaarde. De bibliografische databestanden van Clarivate Analytics (oorspronkelijk het Institute for Scientific Information -ISI- Philadelphia, PA, USA) vormen in deze optiek een onmisbaar vertrekpunt voor om het even welke bibliometrische analyse. De Science Citation Index Expanded (SCIE) samen met de Social Science Citation Index, Arts & Humanities Citation Index zijn specifieke onderdelen van de Web of ScienceTM Core Collection (WoS), dat een van de meest geaccepteerde en onderzochte bronnen voor bibliometrische analyses is geworden. Hoewel er ook kritische bedenkingen te geven zijn (bijvoorbeeld voor wat betreft de tijdschriftendekking en de aanpak in verband met de dataverwerking bij de ontwikkeling en invulling van de WoS), zijn de unieke kenmerken van dit databestand tegenwoordig algemeen aanvaarde onderdelen geworden van de bibliometrische technologie. Van deze kenmerken zijn vooral de volgende het vermelden waard:

  • Multidisciplinariteit: De WoS is uniek door zijn brede dekking. Alle wetenschapsgebieden van de levenswetenschappen, over de natuurwetenschappen evenals de basisdisciplines van de technische wetenschappen maar ook de sociale en humane wetenschappen zijn in het gegevensbestand aanwezig. 
  • Selectiviteit: alle wetenschappelijke tijdschriften die in de WoS opgenomen zijn, werden op grond van kwantitatieve criteria (impactmaatstaven) gekozen en deze selectie wordt in het algemeen ook door de opinie van experten in de betreffende disciplines gevalideerd en aanvaard.
  • Volledige dekking: alle publicaties in tijdschriften die in de WoS opgenomen zijn, worden ook geïndexeerd.
  • Volledigheid van adressen: de werkadressen van alle auteurs worden vermeld. Dit kenmerk maakt dus de analyse van wetenschappelijke samenwerking en de toepassing van een volledig of een gefractioneerd telschema (waarbij een publicatie geheel of gedeeltelijk aan bijvoorbeeld elke auteur, instelling of land wordt toegewezen) mogelijk.
  • Bibliografische referenties: Samen met de documenten worden ook hun referenties verwerkt. De herdefinitie van deze referenties als brondocumenten maakt het mogelijk om citatiepatronen te onderzoeken en citatie-indicatoren te construeren.
  • Beschikbaarheid: De databank is elektronisch beschikbaar als onderdeel van het Web of ScienceTM Core Collection (WoS). 

Er zijn zonder twijfel nog enkele andere kritische bedenkingen te formuleren over de databestanden in de WoS. Naast de twee reeds genoemde aspecten (dekkingsgraad en verwerking bij aanmaak) moet ook nog de oververtegenwoordiging van publicaties afkomstig uit Engelstalige landen, in het bijzonder van publicaties uit de Verenigde Staten, vermeld worden. Hoewel, door de uitbreidingen en de opname van tijdschriften en proceedingsliteratuur uit voornamelijk Oost-Azië en Zuid America in het twee laatste decennia is het evenwicht duidelijk verbeterd. Maar toch blijven de selectiebias op basis van taal en de scheve dekking met vooral in verminderde vertegenwoordiging van de sociale en humane wetenschappen nog steeds voorkomende problemen. Ondanks deze bedenkingen blijft de WoS de meest geschikte bibliografische bron voor uitgebreide, alle vakgebieden omvattende, bibliometrische analyses.

Databronnen en verwerking

Alle bibliometrische gegevens die in dit hoofdstuk gebruikt worden, zijn gebaseerd op de bibliografische ‘ruwe’ data geëxtraheerd uit de 2009-2021 cumulatieve databestanden van de tijdschriftencollectie binnen de WoS (SCIE; SSCI en AHCI). Om de literatuurdekking ietwat uit te breiden wordt als bijkomende databron de proceedings databanken (CPCI-S en CPCI-SSH) gebruikt. Omdat conferentiebijdragen ook in tijdschriften worden gepubliceerd is de overlap van de twee databronnen aanzienlijk. Bij de bijkomende publicaties gaat het echter om conferentiebijdragen die niet reeds – bijv. in het kader van speciale journal issues – in de tijdschriftendatabanken zijn opgenomen. Bij de “zuivere” proceedingsliteratuur kan echter enkel een publicatieanalyse gebeuren en geen citatieanalyse daar er nog geen overeenstemming bestaat over de juiste wijze waarop de referenties naar proceedings weergegeven worden of de impact moet berekend worden. Bovendien zijn niet alle adressen door de uitgevers van de proceedings volledig vermeld zodat voor deze periode ook geen analyse van wetenschappelijke samenwerking kan worden uitgevoerd.

De bibliometrische analyse die in het vervolg van dit hoofdstuk wordt weergegeven, is gebaseerd op de vier zogenaamde ‘relevante’ of ‘citeerbare’ documenttypes, namelijk (1) articles (met inbegrip van proceedings papers in tijdschriften), (2) letters, (3) notes en (4) reviews. De publicaties van de laatste dertien jaar, d.w.z. van de periode 2009-2021, werden voor deze analyses geselecteerd.

Regelmatig onvangt ECOOM van Clarivate Analytics correcties en aanvullingen op de WoS databanken. Deze gegevens corrigeren niet alleen bibliografische of citatiegegevens maar tevens worden ook volledige issues aan vorige jaarlijkse volumes toegevoegd of in vroegere updates verwijderd. Door deze aanpassingen is het nu mogelijk de ECOOM gegevens met de actuele versie van het WoS in overeenstemming te brengen. Door deze aanpassingen kunnen zowel de Vlaamse indicatoren alsook de kerncijfers van de referentielanden lichtjes veranderen. Wij raden dus aan ook telkens de actuele versie van het indicatorenboek te raadplegen.

Aan de basis van de toewijzing van publicaties aan Vlaanderen en aan de referentielanden liggen de werkadressen. De nationaliteit van een auteur is dus niet doorslaggevend maar wel zijn of haar adres van institutionele affiliatie. Er wordt verder een ‘volledig’ telschema toegepast, met andere woorden, indien een publicatie co-auteurs met werkadressen in verschillende landen heeft, dan wordt deze publicatie aan alle betrokken landen als één volledige publicatie toegewezen. Er wordt dus niet gefractioneerd tussen de landen. Doch in het geval een publicatie meer dan één werkadres in hetzelfde land vermeldt, dan wordt dit document enkel één keer aan het betrokken land toegewezen. Anderzijds kan ook één publicatie van één auteur wel als afkomstig van twee landen en dus als een internationale co-publicatie beschouwd worden, indien deze auteur werkadressen in twee verschillende landen heeft vermeld.

De bepaling van Vlaamse publicaties is iets ingewikkelder dan die van de Europese referentielanden. Een document werd beschouwd als afkomstig van Vlaanderen op voorwaarde dat tenminste één (co)auteur een Vlaams werkadres heeft. Verder werden 20% van het aantal publicaties en citaties van alle brondocumenten die enkel een Brussels doch geen Vlaams werkadres hebben, bij de berekening van de Vlaamse basisindicatoren gevoegd. Dit betekent concreet dat 20% van alle instellingen met een Brussels werkadres aan Vlaanderen worden toegewezen. Uitzonderingen vormen de Nederlandstalige Vrije Universiteit Brussel (VUB) die aan Vlaanderen wordt toegewezen en ULB/UCL met toekenning aan Wallonië. Verder werden alle bijkomende Brusselse gegevens manueel geverifieerd en aan de betreffende gemeenschap toegekend. Enkel op de federale en andere niet onmiddellijk toekenbare instellingen werd dus de 20/80 regel toegepast. Deze allocatieregel wordt al sinds het Indicatorenboek 2005 toegepast.

Voor de vergelijkende analyses worden, net als in de vorige versies van het Indicatorenboek, de volgende elf Europese referentielanden in aanmerking genomen: België, Denemarken, Duitsland, Finland, Frankrijk, Ierland, Italië, Nederland, Spanje, Verenigd Koningrijk en Zweden. Ten gevolge van de enorme groei van de Chinese economie, haar technologie en hun wetenschapssysteem werd ook China als referentieland opgenomen.

De toewijzing van publicaties aan wetenschapsgebieden is gebaseerd op een disciplinetoekenning vertrekkend van het destijds door ISI ontwikkelde Subject Category System waarbij tijdschriften worden gegroepeerd in cognitief logische disciplinegroepen. Het hier toegepaste disciplinestelsel is een verdere groepering van de afgerond 250 disciplinecodes zoals ze nu voorkomen in Web Of Science en bevat 74 deelgebieden en 16 hoofdgebieden. In het kader van deze studie werd het Vlaams onderzoek op niveau van 14 van deze hoofdgebieden geanalyseerd. Deze hoofdgebieden zijn:

  1. Agronomie en omgevingswetenschappen (AGRI)
  2. Biologie (op het organisme- en het supra-organismevlak) (BIOL)
  3. Biowetenschappen (algemene, cellulaire en sub-cellulaire biologie; genetica) (BIOS)
  4. Biomedisch onderzoek (BIOM)
  5. Klinische en experimentele geneeskunde I (algemene en interne geneeskunde) (CLI1)
  6. Experimentele geneeskunde II (niet-interne vakken) (CLI2)
  7. Neuro- en gedragswetenschappen (NEUR)
  8. Chemie (CHEM)
  9. Fysica (PHYS)
  10. Aard- en ruimtewetenschappen (GEOS)
  11. Technische wetenschappen (ENGN)
  12. Wiskunde (MATH)
  13. Politieke en Economische wetenschappen (SOC1)
  14. Sociale en Culturele wetenschappen (SOC2)

De citatiegegevens werden bepaald via een op een speciale identificatiesleutel gebaseerd koppelingsalgoritme. Hierbij worden de individuele bronpublicaties gekoppeld met de individuele bestanddelen van de referentielijsten van alle bronpublicaties. Het aantal citaties dat een bronpublicatie in elk jaar na het jaar van zijn publicatie krijgt is natuurlijk niet constant. Het is aan veranderingen onderworpen die eigen zijn aan het proces van veroudering van (wetenschappelijke) informatie. Het citatieproces is dus niet homogeen. De keuze van een geschikt citatievenster is daarom van groot belang. Het in dit hoofdstuk gekozen venster is in overeenstemming met de resultaten van recente methodologische studies en met de praktische ervaring die gangbaar is in het bibliometrisch onderzoek (bijv. Glänzel en Schoepflin, 1995, van Raan, 2006). We passen op basis van deze inzichten een vast tijdvenster van drie jaar, beginnend met het jaar van publicatie, toe. Aldus worden bijvoorbeeld voor publicaties die in de jaargang 2019 van de WoS opgenomen zijn, alle citaties gedurende de periode 2019-2021 geteld. Dankzij dit citatievenster kunnen alle tussen 2009 en 2020 gepubliceerde en in de WoS geïndexeerde documenten in aanmerking genomen worden voor de citatieanalyse. Dit telschema tot en met 2020 wordt op alle landen en regio’s alsmede op de wereldstandaard toegepast.

Bibliometrische indicatoren

Een basismaatstaf van de wetenschappelijke output is het aantal publicaties, of om precies te zijn, het aantal publicaties in het gebruikte bibliografische databestand. De dekkingsgraad en het profiel van de WoS is onderworpen aan jaarlijkse wijzigingen en aanpassingen. Daarom moet het meten van de regionale of nationale publicatieoutput altijd in samenhang met de ontwikkeling van het gegevensbestand als geheel beschouwd worden. Een logische consequentie hiervan is dat voor het onderzoek van publicatietrends, het nationale aandeel in het totaal van de wereldoutput gemeten wordt in plaats van de nationale publicatieoutput zonder meer. Het institutionele, regionale of nationale onderzoeksprofiel voor een gegeven systeem van wetenschapsgebieden kan door de zogeheten Activiteitsindex (AI) uitgedrukt worden. Frame heeft deze indicator 1977 als een bibliometrische versie van de ‘Comparative Advantage Index’ ingevoerd. De Activiteitsindex voor landen wordt op de volgende manier gedefinieerd:

\(AI = \frac{^{C_i}/_C} {^{W_i}/_W}\)

waarbij \(^{C_i}/_C\) het aandeel nationale publicaties in een gegeven gebied i in de nationale publicaties over alle gebieden en \(^{W_i}/_W\) het aandeel publicaties van de wereld in hetzelfde gebied i over de publicaties van de wereld in alle gebieden is. In eerdere studies konden de volgende vier verschillende ‘paradigmatische’ patronen in nationale publicatieprofielen onderscheiden worden (bijv. REIST-2, 1997):

  1. Het ‘westerse’ model met biowetenschappen en medische wetenschappen als overheersende gebieden,
  2. De typische patronen van de voormalige socialistische landen met overheersende activiteit in chemie en fysica,
  3. Het ‘bio-omgevingsmodel’ met biologie en aard- en ruimtewetenschappen op de voorgrond en
  4. Het ‘Japans’ model met overheersende oriëntatie in de richting van technische wetenschappen en chemie.

De neutrale waarde van deze indicator is 1. \( \small{AI>1}\) betekent dus publicatieactiviteit boven de wereldstandaard, \(\small{AI=1} \) betekent een publicatiepatroon overeenkomstig de wereldstandaard en \(\small{AI<1}\) drukt uit dat de activiteit van het land in het betrokken onderzoeksgebied beneden de wereldstandaard ligt.

Drie indicatoren werden toegepast om verschillende aspecten van de impact van het Vlaams wetenschappelijk onderzoek in de Europese context te situeren.

  • De eerste indicator is de gemiddelde geobserveerde citatiefrequentie (Mean Observed Citation Rate: \(\small{MOCR}\)). Deze indicator is gedefinieerd als het quotiënt van het aantal citaties geobserveerd in een bepaalde periode (bijv. drie jaar beginnend met het jaar van publicatie) en het aantal aan de basis liggende publicaties. De MOCR weerspiegelt de feitelijke impact van een onderzoeksgroep, instituut, regio of land.
     
  • De gemiddelde verwachte citatiefrequentie (Mean Expected Citation Rate: \(\small{MECR}\)) geeft een vergelijkingswaarde voor de feitelijke citatie-impact op basis van de impactmaatstaven van de tijdschriften. Het verwachte aantal citaties van een publicatie is gedefinieerd als de gemiddelde citatiefrequentie van alle publicaties die in hetzelfde tijdschrift in hetzelfde jaar verschenen zijn. Om een compatibele verwachtingswaarde te kunnen definiëren, moeten natuurlijk de citatievensters gehanteerd voor beide indicatoren (MOCR en MECR) overeenstemmen. In plaats van het citatievenster van één jaar \(t\) voor publicaties verschenen in de twee voorafgaande jaren \(\small{(t-1)}\) en \(\small{(t-2)}\) (zoals gehanteerd in de definitie van de impact factor in de Journal Citation Report), zal in dit hoofdstuk eveneens een venster van drie jaar toegepast worden. Voor een verzameling van publicaties die aan een bepaalde onderzoeksgroep, instituut, regio of land wordt toegekend is deze indicator dus de verhouding van alle individuele verwachte citatiefrequenties tot alle publicaties in de beschouwde verzameling.
  • De derde indicator is de zogeheten relatieve citatiefrequentie (Relative Citation Rate: \(\small{RCR}\)). Deze indicator wordt gedefinieerd als het quotiënt van de gemiddelde geobserveerde en gemiddelde verwachte citatiefrequentie, dus \(\small{RCR = { }^{MOCR}\!/_{MECR} }\). RCR drukt uit of de publicaties van een onderzoeksgroep, instituut, regio of land meer of minder citaties hebben aangetrokken dan verwacht op basis van de citatiefrequenties van de tijdschriften. Omdat de citatiescores van de artikelen relatief ten opzichte van de citatiestandaard van de opgenomen tijdschriften gemeten worden, is deze indicator veel minder gevoelig voor de grote verschillen die tussen de citatiepraktijken in de verschillende wetenschapsgebieden optreden. \(\small{RCR=0}\) reflecteert ‘ongeciteerdheid’, \(\small{RCR<1}\)betekent dat de betrokken eenheid (onderzoeksgroep, instituut, regio of land) lager dan de wereldstandaard presteert, \(\small{RCR>1}\) betekent hoger dan de wereldstandaard en \(\small{RCR=1}\) drukt uit dat de betrokken eenheid gemiddeld evenveel citaties heeft gekregen als werd verwacht op basis van de citatiepatronen van de tijdschriften.

De drie indicatoren werden geïntroduceerd door Schubert et al. (1983) en worden sedertdien regelmatig toegepast in vergelijkende meso- en macrostudies. Versies van deze indicatoren, namelijk Citations per Paper (\(\small{CPP}\) strookt met \(\small{MOCR}\)), Mean Citation Rate of Journal Packet (\(\small{JCSm}\) komt overeen met \(\small{MECR}\)) en \(\small{^{CPP}/_{JCSm}}\)(komt overeen met \(\small{RCR}\)) worden ook aan het CWTS in Leiden gebruikt (bijv. Moed et al., 1995).

Aanvullend bij deze indicatoren die gebaseerd zijn op verhoudingen tussen geobserveerde en verwachte citatie-waarden wordt ook de citatiedistributie gerapporteerd. De methode is gebaseerd op zelfregulerende citatieklassen en bestaat uit een iteratief proces waarbij als eerste drempelwaarde het gemiddelde van een referentiepopulatie berekend wordt om daarna alle publicaties met een citatie-impact lager dan dat gemiddelde te verwijderen uit de verzameling. Het proces wordt herhaald totdat er in totaal drie drempelwaarden zijn berekend. Deze drie voorwaardelijke momenten laten toe om de gehele verzameling van publicaties op te delen in vier verschillende klassen en karakteriseren dan ook de verdelingen die aan de grondslag liggen van deze methode. Vandaar dat de methode dan ook ‘Characteristic Scores and Scales’ (CSS) genoemd wordt. Deze klassen kunnen gekarakteriseerd worden als: 

  • Weinig geciteerd (CSS 1)
  • Matig geciteerd (CSS 2)
  • Opmerkelijk geciteerd (CSS 3)
  • Uitzonderlijk geciteerd (CSS 4)

Een groot voordeel is dat deze vier performantieklassen niet gebonden zijn aan vooraf gedefinieerde drempelwaarden waardoor deze aanpak zorgt voor een naadloze integratie van maatstaven voor het meten van buitengewone en uitzonderlijke prestaties in de bestaande portfolio van bibliometrische indicatoren ter ondersteuning van de evaluatie onderzoeksprestaties.