Universiteit Leiden Universiteit Leiden | Bij ons leer je de wereld kennen.

Data Science

Onderzoek

Vanuit verschillende disciplines werken onderzoekers van de Universiteit Leiden samen aan innovatieve oplossingen voor maatschappelijke problemen. U vindt hier een voorbeeld op het gebied van fundamentele wetenschappen.

Overzicht wetenschapsdossiers

Slim speuren in gegevens

Wereldwijd voltrekt zich een revolutie op het gebied van data science. De Universiteit Leiden vormt een wetenschappelijke hub op dat vakgebied in Nederland.

Of het nu gaat om taal- of milieuonderzoek, geneeskunde, astronomie of biologie, wetenschappers maken in toenemende mate gebruik van data science. Grote databestanden worden aan elkaar gekoppeld en met slimme algoritmes wordt er gespeurd naar onvermoede patronen die nieuw licht werpen op belangrijke vraagstukken. Dit kan leiden tot bijvoorbeeld nieuwe geneeswijzen, groenere brandstoffen en een beter begrip van onze geschiedenis.

’Er vindt momenteel een revolutie plaats in de data science‘, vertelt Joost Kok, hoogleraar Fundamentele Informatica. ‘Die revolutie is veroorzaakt door de snelle ontwikkelingen op het gebied van high-performance computers en opslag, in combinatie met nieuwe algoritmen als deep learning en de alom aanwezige big data.’

Brandpunt van data science
De Universiteit Leiden is belangrijk voor de data science in Nederland en staat aan de wieg van diverse standaarden in het vakgebied. Zo is de internationale standaard om data toegankelijk te maken voor data scientists in Leiden ontstaan. Dit komt enerzijds, vertelt Kok, doordat de universiteit altijd al met data bezig is geweest. ’Van oudsher produceert en verzamelen wij in Leiden veel data in bibliotheken, musea, laboratoria, ziekenhuizen en in de Sterrewacht. Cohortstudies en telescopen leveren al heel lang grote databestanden op.’ 

Niet alleen in het verzamelen en ordenen van data kent de universiteit een lange traditie. Decennia voordat data science een buzzwoord werd, was het statistisch onderzoek in Leiden al in volle gang. ‘Met data science probeer je in een dataset tussen alle ruis het echte signaal te vinden. Om dat te kunnen doen is een solide basis van wiskunde en statistiek nodig’, zegt Aad van der Vaart, hoogleraar Stochastiek en Spinoza-laureaat. Leiden staat dan ook bekend om de wiskundige, fundamentele aanpak van data science door statistiek met informatica te combineren.

Multidisciplinair
De Leidse expertise op het gebied van data science zit zeker niet alleen binnen de muren van de bèta-faculteit. ‘Deze universiteit is bij uitstek multidisciplinair’, zegt Kok. ‘Onze filosofie is dat uitblinkers van verschillende vakgebieden met elkaar samenwerken. De toppers uit de sterrenkunde werken samen met die uit de informatica, maar zijn beiden verankerd in hun eigen onderzoeksveld.’

De aanpak zorgt voor de meest uiteenlopende onderzoeksprojecten. Zo werken Leidse onderzoekers mee aan een programma om handgeschreven, negentiende-eeuwse expeditieverslagen toegankelijk en doorzoekbaar te maken. Ook ontwikkelen ze methodes om op basis van hersenscans dementie te voorspellen en onderzoeken ze de ethische en juridische implicaties van kunstmatige intelligentie. Sterrenkundigen bestuderen onder meer het ontstaan van zwarte gaten.

Onderzoeksprogramma Data Science
Om het wetenschapsgebied data science een extra impuls te geven, is onlangs het universiteitsbrede onderzoeksprogramma Data Science gestart. De Universiteit Leiden investeert hiervoor vier miljoen euro over een periode van vier jaar. De uitwisseling van kennis tussen verschillende onderzoeksdomeinen wordt zo extra gestimuleerd.


Leiden Institute of Advanced Computer Science (LIACS)
Mathematisch Instituut (MI)
Leiden Centre of Data Science (LCDS)

Leiden: Silicon Valley van FAIR data

Als onderzoekers hun data FAIR maken, kunnen computers grote hoeveelheden data koppelen en patronen herkennen waardoor onderzoekers veel sneller tot nieuwe inzichten kunnen komen. In Leiden, de bakermat van FAIR data, legt professor Barend Mons uit wat die term inhoudt.


Stel dat een computerprogramma via internet toegang zou hebben tot alle resultaten van al het medische onderzoek ter wereld. Het programma zou dan verbanden kunnen leggen die geen arts ter wereld ooit heeft gelegd, simpelweg omdat het meer data betreft dan een mens kan overzien. Dat zou kunnen leiden tot nieuwe inzichten, betere diagnoses en nieuwe geneesmiddelen. Technisch gezien is dit al mogelijk, niet alleen voor de medische wetenschap, maar voor alle disciplines.

Voordat al die data zich hiervoor lenen, moeten ze wel eerst FAIR worden. FAIR staat voor Findable, Accessible, Interoperable en Reusable. Pas als wetenschappelijke resultaten niet alleen vindbaar en toegankelijk zijn voor een computer, maar ook nog verwerkbaar en herbruikbaar, komt het beschreven toekomstbeeld dichterbij.
 

Toegankelijkheid en privacy
‘Nu al moeten wetenschappelijke publicaties van Nederlands onderzoek gefinancierd door publieke middelen voldoen aan de Open Access-eisen’, zegt Barend Mons, hoogleraar Biosemantiek aan het LUMC. ‘Dat iedereen het artikel mag lezen, betekent echter niet dat de achterliggende onderzoeksdata vindbaar en toegankelijk zijn voor een computer.’ Daarvoor zijn meta-datastructuren nodig: datastations die het computerprogramma vertellen welke soort data waar te vinden is, bijvoorbeeld de medische gegevens over rokers.

De balans tussen informatiekoppeling en privacy mag uiteraard niet verstoord raken. ‘De meta-datastations geven daarom ook duidelijkheid over 

Leiden: Silicon Valley van FAIR data

de mate van toegankelijkheid: zijn de rokersdata beschikbaar voor iedereen, of moet je contact opnemen met een onderzoeksleider?’

Tenslotte moet het computerprogramma de data kunnen verwerken en hergebruiken. Een computer kan niet goed overweg met dubbelzinnigheden, zoals bijvoorbeeld de afkorting PSA die behalve Prostate Specific Antigen, nog meer dan 100 andere betekenissen heeft. Elk mogelijk begrip ter wereld zou daarom een unieke getalcode moeten krijgen, die centraal bekend is.


Delen van data belonen
‘Dat klinkt allemaal ingewikkelder dan het is’, zegt Mons. ‘Het probleem is voor tachtig procent cultureel. Er zijn nog niet genoeg prikkels om wetenschappelijke data te delen. Onderzoekers worden beloond voor de publicatie van hun artikel en hun citation/journal impact factor.’ Dat wetenschappelijke artikel komt wat Mons betreft op de tweede plaats te staan. ‘Er moet een impact factor komen op de data output van onderzoek: als je data worden gecombineerd met een andere dataset, wordt de onderzoeker beloond.’

 

Leiden: Silicon Valley van FAIR data

Mons is voorzitter van een Europese adviescommissie op dit gebied. Volgens hem gaat het niet lang duren, voordat het geschetste toekomstbeeld stapsgewijs realiteit wordt. ‘Vanaf 2017 krijgen onderzoekers alleen nog geld van het subsidieprogramma Horizon 2020, als ze hun data FAIR maken. Zodra andere financiers volgen, moeten de wetenschappers wel. Maar idealiter zien zij zelf heel snel de enorme voordelen van FAIR data en goed datastewardship.’
 


Leiden Silicon Valley van FAIR data
Het FAIR maken van onderzoeksdata staat wereldwijd op academische agenda’s. Het begrip is echter afkomstig uit Leiden, vertelt Mons niet zonder trots. 'Ongeveer tweeënhalf jaar geleden werden de principes van FAIR data voor het eerst geformuleerd tijdens een workshop in het Lorentz Center. Inmiddels komen experts op het gebied van linked data uit de hele de wereld hier naartoe om FAIR data te implementeren. Als de overheid genoeg investeert, kan Nederland een heel belangrijke FAIR data speler worden en Leiden een soort Silicon Valley van FAIR data.’

Van oerknal tot algoritme

Slimme algoritmes en krachtige processoren zijn voor de sterrenkunde net zo essentieel als grote telescopen. Leidse astronomen bewegen zich daarom voortdurend op het raakvlak van sterrenkunde en data science.


Wat gebeurde er kort na de Big Bang? Hoe ontstaan zwarte gaten en melkwegstelsels? Hoe bewegen alle sterren in ons melkwegstelsel ten opzichte van elkaar? Om de antwoorden op dergelijke vragen te vinden, gebruiken astronomen niet alleen enorme telescopen en andere meetapparatuur. De gigantische berg data die deze instrumenten opleveren, verwerken ze met behulp van computers en slimme algoritmes. Vandaar dat data science bij de Leidse sterrenkundigen een cruciale rol speelt.


Ontstaan van zwarte gaten
‘Neem LOFAR, een radiotelescoop die bestaat uit een netwerk van duizenden radio-antennes in verschillende Europese landen’, vertelt Huub Röttgering, hoogleraar Observationele Kosmologie en directeur van de Sterrewacht Leiden. ‘Daarmee meten we signalen uit de ruimte, van deeltjes die afkomstig zijn uit het grensgebied rond zwarte gaten. Op grond van die signalen krijgen we een beeld van de zwarte gaten aan de rand van het heelal. Die zwarte gaten zijn gevormd kort na de oerknal en kunnen ons iets leren over het ontstaan van zwarte gaten in het algemeen.’

 

Halfjaar rekenen
Het omzetten van de ontvangen signalen naar kleurrijke kaarten heeft echter nogal wat voeten in de aarde. ‘Alle antennes bij elkaar leveren iedere acht seconden een terabyte aan data op’, zegt Röttgering, die een kaart van een klein deel van het heelal laat zien. ‘Deze kaart is het resultaat van acht uur lang meten. Om de data te verwerken, moest een supercomputer echter maanden rekenen.’

Dat heeft deels te maken met de hoeveelheid binnenkomende data: hoe sluis je bijvoorbeeld al die grote databestanden naar Leiden? Het heeft ook te maken met het ‘opschonen’ van de data: allerlei ruis, veroorzaakt door bijvoorbeeld een vliegtuig, moet worden verwijderd. Ook voor trillingen, veroorzaakt door de atmosfeer, moeten de data worden gecorrigeerd. En ook onregelmatigheden door minuscule verschillen in de ontvangsttijden van de antennes moeten door de computer achteraf gladgestreken worden.

Kaart van het 'sausage field' waar de supercomputer maanden aan heeft moeten rekenen.

Kaart van het 'sausage field' waar de supercomputer maanden aan heeft moeten rekenen.


Oplossingen ontwikkelen
Veel onderzoeksprojecten zoals LOFAR hebben te maken met dergelijke problemen. Het ontwikkelen van oplossingen hoort voor de Leidse astronomen als vanzelfsprekend bij hun vakgebied. ‘Het terugbrengen van de rekentijd met behulp van slimme algoritmes is een van de methodes die we toepassen’, vertelt Röttgering. Ook parallellisering, het ophakken van de rekenopgave in delen en die gelijktijdig laten uitrekenen door meerdere processoren, is een essentiële techniek.


Afgestudeerde sterrenkundigen populair
De ontwikkeling van soft- en hardware-oplossingen is voor de Leidse astronomen dus net zo belangrijk als het ontwikkelen van theorieën over het heelal. Juist deze brede oriëntatie maakt de Leidse studie Sterrenkunde erg aantrekkelijk voor studenten. ‘We hebben nu meer dan honderd eerstejaars studenten. Dat is veel meer dan vroeger, toch vinden ze allemaal een baan.’, zegt Röttgering. ‘Doordat de studenten tijdens hun studie erg veel wis- en natuurkunde krijgen, en ook nog hands-on bezig zijn met informatica, maakt het dat ze ook buiten de sterrenkunde zeer gewild zijn.’

 

Sterrewacht Leiden
LOFAR

Toegepaste statistiek als pijler voor data science

Hoewel data science op veel plaatsen nu in schwung is, werden er in Leiden al lang geleden data science technieken ontwikkeld. Op dit moment combineren Leidse statistici dankzij hun brede expertise de verworvenheden van de statistiek met de nieuwste methoden van statistical en machine learning.


‘Het lijkt of data science iets nieuws is, maar in de toegepaste statistiek ontwikkelen we al jaren data science technieken’, vertelt Jacqueline Meulman, hoogleraar Toegepaste Statistiek op het Mathematisch Instituut. ‘Met het visualiseren van verbanden en het analyseren van grote, complexe databestanden, zijn we in Leiden al zeker 35 jaar bezig’.


SPSS
Uit de jaren ‘90 stamt bijvoorbeeld de eerste bijdrage van Meulmans toenmalige vakgroep aan het welbekende statistische data analyse pakket SPSS, inmiddels een onderdeel van IBM. Het wordt wereldwijd gebruikt door wetenschappers, studenten en het bedrijfsleven. Nog altijd vernieuwen de Leidse statistici hun onderdeel ‘CATEGORIES’ met toevoegingen van de laatste technische ontwikkelingen. De royalties die IBM betaalt, worden weer geïnvesteerd in onderzoek en onderwijsgerelateerde activiteiten.


Complexe data analyse
Een probleem bij het analyseren van grote datasets is de puurheid van de data. ‘Een signaal ontdekken te midden van veel ruis, dat is vaak wat we moeten doen’, vertelt Meulman. Ze geeft als voorbeeld een onderzoek op Metabolomics gebied. Het betrof een onderzoek onder eeneiige tweelingen met als vraag: lijkt het stofwisselingssysteem van de tweelingen meer op elkaar dan door toeval verklaarbaar is? ‘Analyse van bloed en urine leveren grote hoeveelheden data op, maar zulke data zijn altijd complex', legt Meulman uit. ‘De ene helft van een tweeling heeft bijvoorbeeld ’s ochtends ontbeten en de andere niet.’ Ook zijn er veel variabelen in dergelijke bestanden die er helemaal niet toe doen. Meulman en haar collega’s gebruiken de nieuwste technieken om zulke ruisvariabelen eruit te filteren en daardoor gelijkenissen op te sporen.

 

Statistical learning
Peter Grünwald, hoogleraar Statistical Learning, doet onderzoek op het raakvlak van statistiek, machine learning en informatietheorie. Kort gezegd ontwikkelt hij methoden om computers statistisch verantwoord data te laten analyseren. Met een voorbeeld maakt hij duidelijk hoe belangrijk dit is. Een paar jaar geleden maakte Google furore: het 

Google Flu Trends

Google Flu Trends

bedrijf had een griepepidemie voorspeld door te analyseren waar er geografisch veel gezocht werd op woorden zoals koorts, verkoudheid en dergelijke. ‘Dat werkte een of twee keer en daarna niet meer’, zegt Grünwald. ‘Als een programma een patroon ontdekt, moet je laten zien dat het geen toeval is. Daar is echte statistiek voor nodig.’


Reproducibility crisis
Vanuit statistical learning kijken de Leidse statistici ook of de klassieke statistiek verbeterd kan worden met behulp van technieken die in de machine learning – een deelgebied van de informatica - zijn bedacht. ‘Ik ben nu bezig met de reproducibility crisis: veel onderzoek blijkt na herhaling niet dezelfde resultaten te geven’, zegt Grünwald. ‘Dat kan komen doordat een onderzoeker extra experimenten heeft uitgevoerd nadat zijn eerste bevindingen niet significant genoeg bleken om een solide conclusie te kunnen trekken. Dat leidt tot een vertekend beeld: een puur toevallige uitkomst kan ineens betekenisvol lijken. Er zijn statistische methoden om hiervoor te corrigeren, maar die zijn heel ingewikkeld. Met behulp van ideeën uit de machine learning en informatietheorie probeer ik die methodes nu te verbeteren.’

 

Mathematisch instituut (sectie Statistical Science)

 

 

Dementie voorspellen

In de toekomst kan een arts dementie wellicht veel eerder herkennen dan nu het geval is. Een computeralgoritme kan dan op basis van hersenscans voorspellen hoe ons geheugen zich gaat ontwikkelen.


Wanneer een arts nu dementie vaststelt, is de ziekte al vergevorderd. Op een MRI-scan van het brein is dan te zien hoe het hersenweefsel is afgenomen. Uit onderzoek blijkt echter dat dementie onze hersenen ook op andere manieren beïnvloedt. De structuur van het brein verandert. Zenuwbanen verbinden delen van de hersenen minder goed. Er lijken daarnaast veranderingen op te treden in de functionele verbindingen: de koppelingen van hersenactiviteit die normaal gesproken bestaan tussen verschillende gebieden van het brein.

Dementie voorspellen


'Gezonde mensen met een genetische aanleg voor dementie hebben gemiddeld andere functionele verbindingen in hun hersenen dan mensen zonder die erfelijke aanleg', vertelt Serge Rombouts, onderzoeker bij het Instituut Psychologie van de Universiteit Leiden en bij het Leids Universitair Medisch Centrum (LUMC). 'Enkele hersengebieden zijn minder sterk met elkaar verbonden, andere verbindingen juist sterker. Wij onderzoeken of die veranderingen in verband staan met de ontwikkeling van de ziekte.'

Dementie voorspellen


Patronen in data
Het onderzoek van Rombouts en zijn collega’s volgt verschillende groepen gezonde mensen, onder wie mensen met aanleg voor dementie. Zij krijgen regelmatig een hersenscan. Zodra de ziekte wordt vastgesteld, kunnen de onderzoekers terugkijken naar hersenscans van voorgaande jaren. Zo hopen ze veranderingen te vinden die in verband staan met de ziekte en ook te onderzoeken of ze aan de hand daarvan de ziekte hadden kunnen voorspellen.

Omdat nu nog niet bekend is welke veranderingen van belang zijn, is dat als zoeken naar een speld in een hooiberg. Zo zijn er snel duizend hersengebieden die functioneel met elkaar gekoppeld zijn, wat zorgt voor een half miljoen functionele verbindingen. Hetzelfde geldt voor de anatomische verbindingen. De onderzoekers maken daarom een selectie van welke gebieden vermoedelijk van belang zijn, gebaseerd op de kennis die ze al hebben. Daarnaast ontwikkelen ze zelflerende algoritmes: computerprogramma’s die zichzelf trainen om patronen te herkennen in die enorme hoeveelheid data. Deze moeten de relevante veranderingen op de scans eruit pikken.

Dementie voorspellen


Voorspellingen in de toekomst
Voordat de computer op grond van een hersenscan kan helpen voorspellen hoe ons geheugen zich zal ontwikkelen, moet er nog veel gebeuren, waarschuwt Rombouts. 'De uitkomsten van deze studie gelden in elk geval voor de groep mensen die we onderzocht hebben. Om de resultaten te valideren, moeten we nog veel meer groepen bestuderen. Daarnaast heeft elke soort scanner een eigen technologie. De ene technologie doet niet onder voor de ander maar door dat verschil geven de verschillende soorten scanners geen één op één vergelijkbare resultaten. Het algoritme moet daarop berekend zijn en bij elke scanner een betrouwbare analyse geven.'

De technologie die de Leidse onderzoekers ontwikkelen, is niet alleen voor dementie relevant. 'De methode die we ontwikkelen om hersenscans door te meten kan mogelijk helpen bij de diagnostiek van andere aandoeningen', vertelt Rombouts. 'Denk aan neurologische aandoeningen, zoals de ziekte van Parkinson, of psychiatrische aandoeningen zoals depressie. Op den duur kan deze methode zelfs bruikbaar zijn in het voorspellen van behandelingseffecten van verschillende medicijnen.'

Naast de Universiteit Leiden en het LUMC zijn verder ook het Erasmus MC, het VUmc Alzheimer Centrum en het Centre for Human Drug Research betrokken.  

Instituut Psychologie (sectie Methode & Statistiek)
Leiden Institute for Brain and Cognition (LIBC)
LUMC
Erasmus MC
VUmc Alzheimer Centrum
Centre for Human Drug Research
 

Cultureel erfgoed omzetten in bruikbare data

Hoe maken we de informatie in handgeschreven historische onderzoeksverslagen toegankelijk en doorzoekbaar? Leidse data scientists werken samen met andere universiteiten aan een methode om cultureel erfgoed beter te ontsluiten.


Achttien ontdekkingsreizigers van de Natuurkundige Commissie voor Nederlands-Indië trokken tussen 1820 en 1850 door de Indische Archipel. Ze bestudeerden tijdens hun expedities de exotische flora en fauna. Hun rapportages, die zo’n zeventienduizend rijk geïllustreerde pagina’s beslaan, zijn in bezit van Naturalis Biodiversity Centre. De collectie geeft een rijk beeld van de biodiversiteit begin 19e eeuw in die regio.

De pagina’s van de verslagen zijn inmiddels ingescand en digitaal beschikbaar, maar even simpel erin googlen op plaatsnaam of diersoort is er niet bij. Het onderzoeksproject MAKING SENSE moet daarin verandering brengen. Door het erfgoed om te zetten in doorzoekbare en analyseerbare data kunnen andere onderzoekers straks nieuw licht werpen op allerlei geschiedkundige en biologische vraagstukken. Naast Leiden zijn Naturalis Biodiversity Centre, de Universiteit Twente, de Rijksuniversiteit Groningen en uitgever BRILL bij dit project betrokken.


Datapatronen in beeldenbrei
De belangrijkste taak van de onderzoekers uit Leiden, Twente en Groningen is het trainen van de computer in het onderscheiden van informatie in de historische documenten. Wij mensen zien in één oogopslag het verschil tussen een plaatje en een handgeschreven zin. Voor een ongetrainde computer daarentegen, is een foto van een logboekpagina één grote beeldenbrei.

In het project maken de onderzoekers gebruik van het in Groningen ontwikkelde 

Cultureel erfgoed omzetten in bruikbare data

handschriftherkenningsprogramma Monk, maar met dit algoritme alleen zijn de wetenschappers er nog niet. Data scientist biosemantiek Katy Wolstencroft en haar collega’s werken aan een algoritme dat de verschillende onderdelen van een layout kan identificeren op een ingescande pagina: wat is de inhoudsopgave, waar staat de naam van een diersoort en waar de beschrijving? Zodra dit programma deze semantiek kan doorgronden, kan er samenhangende data uit het verslag verkregen worden: een afbeelding van een vleermuis kan dan gecombineerd worden met bijvoorbeeld de benaming ervan, de locatie waar deze gevonden is en de beschrijving van zijn uiterlijk.

Met deze rijke data kunnen biologen onderzoek doen naar de verschillende soorten vleermuizen op Java in de negentiende eeuw. En deze vergelijken met hedendaagse vleermuissoorten. Zo krijgen ze inzicht in hun evolutie en wellicht ontdekken ze nieuwe soorten.


Heterogene data
Voordat het zover is, moeten er nog allerlei problemen worden opgelost. 'De data zijn erg heterogeen van aard', vertelt Wolstencroft. “De verslagen bevatten woorden in verschillende talen: Duits, Latijn, Grieks, Nederlands, Frans en Maleis. Plaatsnamen veranderden door de geschiedenis heen en soms voegden nieuwe auteurs achteraf informatie toe aan een verslag.' Het ontwikkelen van een programma dat zulke nuances begrijpt en intact laat, is niet eenvoudig. 

De inhoud van de reisverslagen wordt uiteindelijk gekoppeld aan de soortenarchieven van Naturalis. Ongetwijfeld leidt dit tot nieuwe, waardevolle inzichten voor historici en biologen. Maar dat is niet het enige doel van het project. 'We ontwikkelen een generieke methode om  historische documenten te verwerken', zegt Wolstencroft. 'Die kan ook op andere collecties worden toegepast. Uiteindelijk draait het allemaal om het kunnen delen van data.'

Cultureel erfgoed omzetten in bruikbare data

Ethische eisen aan data science

Computers worden zo slim, dat ze op termijn wellicht de rol van de rechter overnemen. Tot die tijd buigen Leidse experts zich over de vraag, aan welke normen verantwoordelijke data science moet voldoen.


Het moment dat de computer de rechter vervangt, komt met de snelle ontwikkelingen op het gebied van data science elke dag een stapje dichterbij. ‘Een computer kan in de toekomst uit duizenden vergelijkbare casussen elementen halen, met elkaar verbinden en op grond daarvan de beste beslissing nemen’, zegt Jaap van den Herik, hoogleraar Juridische Informatica van de Universiteit Leiden. ‘Ik denk dat over ongeveer 15 jaar computers al eenvoudige vonnissen schrijven. En in 2080 zijn computers beter in het nemen van ethische beslissingen dan rechters.’


De sleutel tot die toekomst is deep learning, waarbij een computerprogramma zelf patronen ontdekt in grote hoeveelheden casussen. Met die technologie leerde een computer ook al de menselijke wereldkampioen te verslaan met het spel Go. Toch moet er nog veel gebeuren, voordat rechters hun hamers verliezen aan een computer, vertelt Van den Herik.

Ethische eisen aan data science


Meer informatie nodig
‘Het aantal mogelijkheden bij Go is erg groot, maar wel eindig. Bij de rechtspraak is het aantal mogelijkheden oneindig.’ Over de uitslag van het spel valt bovendien niet te twisten. Ook dat is bij de rechtspraak wel anders. Culturele verschillen leiden namelijk tot verschillen in rechtspraak. ‘Om goed onderbouwde beslissingen te leren nemen, moet de computer beschikken over een grote diversiteit in data betreffende de context van eerdere casussen’, zegt de hoogleraar. ’Vaak spelen data die niet opgeslagen mogen worden, zoals ras, godsdienst en seksuele voorkeur een rol. Het ontbreken van die context maakt het voor een computerprogramma lastig casussen goed te analyseren.’ Een ander probleem is dat er soms weinig beschikbare eerdere casussen zijn. Hoe meer data het computerprogramma heeft om van te leren, des te beter worden de vonnissen.


Verantwoordelijke data science
Terwijl computers een steeds grotere rol in de samenleving zijn gaan spelen, blijkt het maatschappelijk vertrouwen in computers gedaald. Zorgen op het gebied van veiligheid en privacy zijn hieraan onder meer debet. Om dit tij te keren, is volgens Van den Herik meer onderzoek nodig naar de voorwaarden voor verantwoordelijke data science.

‘De data die je hiervoor gebruikt moeten toegankelijk zijn en verwerkbaar door een computer. Ze moeten goed versleuteld zijn en de privacy van mensen waarborgen. Hier in Leiden zetten we met het FAIR-principe op dit gebied de standaard voor onderzoeksdata.’ (zie ook ‘Leiden: Silicon Valley van FAIR data‘)

Studenten die zich bezighouden met data science, moeten volgens de hoogleraar al vroeg leren om ethische overwegingen mee te nemen in hun werkwijze. Met zijn eigen onderzoeksgroep buigt hij zich onder meer over de vraag, hoe verantwoordelijke data science zich verhoudt tot de juridische praktijk. ‘Hoe meet je al die voorwaarden op dit moment? En hoe doe je dat over 10 jaar? Het is zeker dat het dan niet meer gaat over verantwoordelijkheid maar ook over aansprakelijkheid. Nu computers steeds slimmer worden, wordt het de hoogste tijd om deze discussies serieus te gaan voeren.’

 

The International Data Responsibility Group (IDRG)

 

 

Experts

  • Joost Kok
  • Aske Plaat
  • Barend Mons
  • Jaap van den Herik
  • Jacqueline Meulman
  • Katy Wolstencroft
  • Peter Grünwald
  • Serge Rombouts
  • Huub Rottgering
  • Stefan Manegold
  • Holger Hoos
  • Thomas Bäck
  • Hilde De Weerdt
  • Simon Portegies Zwart
  • Gerard van Westen
  • Wessel Kraaij
  • Suzan Verberne
  • Diego Garlaschelli
  • Matthijs van Leeuwen
  • Michael Lew
  • Frank den Hollander
  • Arjen Doelman
  • Jelle Goeman
  • Marta Fiocco
  • Elise Dusseldorp
  • Mark de Rooij
  • Tim van Erven
  • Aad van der Vaart

Joost KokHoogleraar Fundamentele informatica

Topics: Data Science, Informatieverwerking

+31 (0)71 527 7057

Aske PlaatHoogleraar Data science

Topics: Informatica

+31 (0)71 527 7065

Barend MonsHoogleraar Biosemantiek

Topics: Biosemantiek, science policy, FAIR data, nanopublications

Jaap van den HerikHoogleraar Recht en Informatica, Chair Board of Directors of LCDS

Topics: kunstmatige intelligentie, data science, big data, e-humanities, recht en informatica, technologie

+31 (0)71 527 7054

Jacqueline MeulmanHoogleraar Toegepaste statistiek

Topics: Toegepaste statistiek, meerdimensionele data analyse, visualisatie, predictie, classificatie

+31 (0)71 527 7135

Katy WolstencroftUniversitair docent

Topics: Data science, data and knowledge integration, semantics and ontologies, bioinformatics

+31 (0)71 527 8926

Peter GrünwaldHoogleraar Statistisch leren

Topics: statistical learning,machine learning, foundations of statistics, information theory

+31 (0)71 527 7047

Serge RomboutsHoogleraar Methoden van Cognitieve Neuroimaging

Topics: dementie, neurowetenschappen, hersenscans, FMRI, Brain Connectivity

+31 (0) 71 526 3309

Huub RottgeringHoogleraar Observationele kosmologie

Topics: astronomy, galaxy formation, large scale structure, LOFAR, optical/ infrared and radio interferometers

+31 (0)71 527 5851

Stefan ManegoldHoogleraar Informatica

+31 (0)71 527 2727

Holger HoosHoogleraar Machine Learning

Topics: Machine learning

+31 (0)71 527 2727

Thomas BäckHoogleraar Natural computing

+31 (0)71 527 7108

Hilde De WeerdtHoogleraar Chinese Geschiedenis

Topics: Area studies, China, Chinese empire, Chinese history, Comparative history, digital methods for humanities research, environmental history, historical sociology, information networks, urban history

+31 (0)71 527 6505

Simon Portegies ZwartHoogleraar Computationale astrofysica

Topics: Computational gravitational dynamics, high-performance computing, the formation and evolution of planetary systems, stellar and binary evolution

+31 (0)71 527 8429

Gerard van WestenUniversitair docent

Topics: bio-informatics, cheminformatics, chemogenomics, data mining, drug discovery, machine learning, proteochemometrics

+31 (0)71 527 3511

Wessel KraaijHoogleraar Applied data analytics

Topics: digital health, information retrieval, text mining, privacy respecting analysis

+31 71 527 5778

Suzan VerberneUniversitair Docent

Topics: Text Mining, Information Retrieval

Diego GarlaschelliUniversitair hoofddocent

Topics: Complex Networks, Econophysics, Statistical Physics, Network Reconstruction, Financial Networks, Systemic Risk

+31 (0)71 527 5510

Matthijs van LeeuwenUniversitair docent

+31 (0)71 527 7048

Michael LewUniversitair hoofddocent

Topics: Deep learning, multimedia analysis & mining, computer vision

+31 (0)71 527 7034

Frank den HollanderHoogleraar Kansrekening

Topics: complex networks, disordered systems, critical phenomena, population genetics, polymer chains

+31 (0)71 527 7105

Arjen DoelmanHoogleraar Toegepaste analyse

+31 (0)71 527 7123

Jelle GoemanHoogleraar Biostatistiek

Topics: Biostatistics, high-dimensional data analysis, hypothesis testing, genomic data

+31 (0)71 526 8569

Marta FioccoUniversitair hoofddocent

+31 (0)71 527 7119

Elise DusseldorpUniversitair hoofddocent Psychologie

Topics: Statistieke methoden om voorspellingen te doen, machine learning methodes, meta-analyse

+31 (0)71 527 8046

Mark de RooijHoogleraar Psychologie

Topics: Methodologie en Statistiek van Psychologisch Onderzoek

+31 (0)71 527 4102

Tim van ErvenUniversitair docent

+31 (0)71 527 7126

Aad van der VaartHoogleraar Stochastiek

Topics: Statistiek

+31 (0)71 527 7130

Onderwijs

De Universiteit Leiden biedt een breed palet aan opleidingen op het gebied van data science. De kern van data science bestaat uit statistiek en informatica en vormt de basis van deze programma’s. In het bacheloronderwijs kunnen Leidse studenten vanuit elk vakgebied de minor (een keuzepakket van een half jaar) Data Science volgen. Wiskunde en Informatica studenten kunnen hiermee een compleet vijfjarig data science traject volgen door vervolgens in hun master te kiezen voor een specialisatie in Data Science. Ook binnen een groeiend aantal andere masteropleidingen is er de mogelijkheid om een specialisatie Data Science te volgen, zoals bij Astronomy en Bio-Pharmaceutical Sciences.

Outreach & Nieuws

Nieuws

Agenda