Reproduceerbare data-analyses met R en Docker

Tijdens mijn promotieonderzoek heb ik veel gebruik gemaakt van SQL-server (daar zat de logdata van de opnames van de colleges waar ik onderzoek naar deed in) en SPSS (als toen meest voor de hand liggend statistiekpakket).

Ik heb sindsdien al vaker geconstateerd dat als ik nú nogmaals dat onderzoek zou doen ik waarschijnlijk in ieder geval SPSS zou hebben vervangen door R. Dat komt voor een belangrijk deel door de ervaringen die ik opgedaan heb tijdens de Data Science specialisatie bij Coursera een paar jaar geleden waar gebruik gemaakt wordt van R en de verschillende uitbreidingen.

Nou zorgt R er voor dat je eenvoudig je analyses, script, omgevingen, rapportages etc. kunt opslaan op een manier die reproductie ervan achteraf mogelijk maakt. Maar wat nou als die afhankelijk zijn van een specifieke versie van R of van de plugins? Dan biedt Docker een oplossing. Daarmee kun je namelijk “containers” downloaden die bestaan uit een specifiek setup van een R-versie en plugins. Eventueel kun je eigen specifieke plugins en uitbreidingen installeren en dan als eigen image bewaren. Dat is dan een bestand dat je bewijze van spreken bij de data en scripts kunt archiveren. Zolang Docker beschikbaar is kun je dan ten alle tijden die versie van de setup, exact zoals jij hem gebruikt hebt, opstarten en de analyses reproduceren. Mocht je dat willen dan kun je dus ook niet alleen de data maar ook de omgeving open access beschikbaar stellen en delen met andere onderzoekers. Die hoeven dan niet helemaal een omgeving in te richten met die tools, maar kunnen hem draaien naast eventueel andere omgevingen die ze zelf hebben. En ook: nieuwe laptop van de baas? Geen probleem. Als je docker installeert kun je in no time je omgeving weer opstarten en beschikbaar hebben met de setup die je had.

Super toch? En dat allemaal zonder jaarlijkse licentiekosten!
Overigens, het Rocker Project dat zorgt voor R-images binnen Docker bestaat al lang (sinds 2014)

0 0 stemmen
Bericht waardering
1 Reactie
Inline Feedback
Bekijk alle reacties
trackback

Reproduceerbare data-analyses met R en Docker https://t.co/B7fjnHtTfN