mrt 282018
 

Vond ik afgelopen weekend nog dat Docker toch best wel een leercurve had, vandaag  kwam ik er gelukkig al achter dat die geïnvesteerde tijd toch niet voor niets was geweest. Want op het Revolutions weblog stond een interessant bericht. Daarbij werd gebruik gemaakt van de Microsoft Azure Computer Vision API om automatisch een bijschrijft te laten genereren van willekeurige afbeeldingen die opgehaald werden van Wikimedia Commons. De stap-voor-stap beschrijving staat hier.

Om dat te doen had je alleen een (gratis) Azure-account nodig (ik heb de studenten versie aangemaakt met mijn Office365-account) én een installatie van RStudio. Die laatste gebruik ik niet dagelijks. Maar met behulp van Docker was het een kwestie van een Docker commandline openen en het commando docker run --rm -p 8787:8787 rocker/verse, even wachten totdat Docker gezien had dat container nog niet lokaal beschikbaar was, de container automatisch gedownload was en opgestart.

Daarna had ik in mijn browser de beschikking over een volledige R setup met RStudio en de meest voorkomende libraries.

Ik heb daarop een R-bestand aangemaakt en daar de code die David Smith in zijn blogpost plaatst geknipt en geplakt. Daarbij bleek er 1 klein foutje te zitten in de code waardoor het niet werkte. In regel 3 van image_caption.R stond "?visualFeatures=Description",
en dat moet zijn "/analyze?visualFeatures=Description", anders krijg je alleen 404 meldingen terug van Azure. Daarna krijg je confidence info en een beschrijving retour. Bij een niveau boven de 50% komt hij zo te zien heel aardig overeen:

Lees verder….

Deel dit bericht:

Shiny Cheat Sheet

 Gepubliceerd door om 21:00  Algemeen
jul 012014
 

shiny_cheat_sheet Shiny is een framework voor R waarmee je (semi-) eenvoudig webapplicaties kunt maken. Een voorbeeld van zo’n applicatie kun je hier vinden, met daarbij de opmerking dat die draait op de alfa-service van shinyapps.io en af en toe een foutmelding kan geven (bijvoorbeeld dat hij qplot niet kan vinden). Dan moet je de pagina even verversen.

De code voor die applicatie is hier te vinden. Mooi is dat je op deze manier dus voor gebruikers een interface kunt bouwen op datasets en hen de mogelijkheid kunt geven om (binnen grenzen) zelf de weergave van die data aan te passen. Toch heel wat handiger dan een Execl-spreadsheet met alleen getallen rondsturen lijkt me.

Je kunt de volledige cheat sheet hier downloaden.

Deel dit bericht:
jun 282014
 

Het is, zo te lezen, nog een werk in uitvoering, maar Lively R, een uitbreiding op R die op haar beurt weer gebruik maakt van een aantal andere uitbreidingen, ziet er nu al heel interessant uit.

Zoals je in het filmpje hierboven kunt zien, kun je interactief met de data aan de slag. Vooral handig in het eerste analyserende deel van je onderzoek. Maar ook, zoals in het filmpje ook aangegeven wordt, mooi voor studenten die het kunnen gebruiken om meer zicht te krijgen op de achterliggende theorie. Of die zo eenvoudig kunnen *zien* wat het effect is van de breedte van je ‘kolommen’ in een histogram. Of van de richting van je X en Y-as, hoe je regressielijnen kunt passen op je data etc.
Natuurlijk, zonder kennis van de onderliggende theorie, kun je ook hier niets mee. Maar met alleen de theorie snap je het ook niet altijd meteen en dan kun je hier mee aan de slag.

Deel dit bericht:
jun 202014
 

Github pages Het is even wat druk hier. Komend weekend is de deadline voor de projectopdrachten van twee MOOCs waar ik aan deelneem (Practical Machine Learning en Developing Data Products, beiden onderdeel van de Data Science specialisation) en die vergen even wat werk.

Deze post is vooral ook voor mezelf even een link naar de instructies hoe ik een Slidfy presentatie op GitHub kan publiceren. Slidify is een library voor R Studio waarmee je in tekst je presentatie kunt definiëren. Dat kan met Markdown, maar je kunt ook R code gebruiken, bijvoorbeeld om grafieken te laten genereren op basis van data. Ideaal dus als je verslag wilt doen van een statistische analyse (die je ook met R uitgevoerd hebt).
De presentatie wordt gegenereerd naar HTML. En je kunt dan niet alleen de broncode voor de presentatie, maar ook het eindresultaat op GitHub zetten. Dan kunnen mensen hem daar bekijken. Dat zou heel eenvoudig moeten zijn (zie deze instructie) maar dat blijk ik op mijn Windows machine niet aan de praat te krijgen. De stappen in deze instructie werken wel.

Overigens, ik plaats even geen link naar mijn uitwerking (al is die eenvoudig te vinden omdat het repository publiekelijk toegankelijk is), het probleem van plagiaat (mensen die gewoon de uitwerkingen van anderen die al eerder klaar zijn inleveren voor de peer-review) is enorm bij deze specialisatie/serie MOOCs. Tja, kan ik niets aan veranderen, ik kan alleen garanderen dat wat ik zelf inlever eigen werk is.
Goed, snel weer verder.

Deel dit bericht:
mei 062014
 

rt_plot Terwijl ik nog even aan het wachten ben op de definitieve beoordeling van twee MOOCs die onderdeel uitmaken van de Data Science specialisatie op Coursera en aan het inschatten ben hoeveel ik er nu tegelijkertijd er bij wil/kan doen, kom ik zo nu en dan van die mooie ‘onderzoekjes’ tegen die laten zien hoe je tamelijk subjectieve inschattingen (is een film overgewaardeerd of ondergewaardeerd) kunt proberen objectiever te maken als je over de juiste (hoeveelheid) data en tools beschikt. En R is daar een mooi hulpmiddel bij.

In dit bericht wordt ingegaan op de vraag welke films overgewaardeerd of ondergewaardeerd zijn. De analyse is nog niet optimaal, maar laat wel al zien dat voor het merendeel van de films blijkt dat de experts en het bredere publiek het met elkaar eens zijn. En het is hoe dan ook wel een leuk voorbeeld van hoe je zoiets nu wél kunt doen, terwijl het voorheen zo goed als onmogelijk was omdat de data er simpelweg er niet was.

Deel dit bericht:

MOOC’s over Statistiek met R

 Gepubliceerd door om 19:47  Onderwijs, Tip, Tools
dec 062013
 

MOOCs_R Toen ik op 22 september jl. begon aan de MOOC Statistics One, verzorgd door Andrew Conway van de Princeton Universiteit, was R als programma voor mij nog een volledig onbekend iets. D.w.z. ik had er wél van gehoord, ik wist dat er mensen waren die er heel interessante dingen mee voor elkaar kregen, maar voor mij was de omgeving nog een raadsel.

Dat is nu inmiddels wel anders. Naast de dingen die in de de MOOC aan bod komen, had ik op een gegeven moment voldoende basis om op basis van andere online documentatie en instructies meer te doen. Maar de Statistics One course smaakte ook naar meer. Ik was dan ook heel blij met de lijst met populairste Coursera MOOC’s die gebruik maken van R.
De eerste, meest populaire MOOC op het lijstje is “Social Network Analysis“, dat verrast me overigens wel een beetje, want daar staat vooral Gephi centraal. Nummer twee op het lijstje is de Statistics One MOOC van Andrew Conway, die heb ik nu bijna afgerond. Dus ging ik het lijstje verder af…

Computing for Data Analysis start in januari 2014. Er is nog geen toegang tot materiaal, dus daar kan ik nog niet veel mee, ik heb me wel aangemeld. Data Analysis van Jeff Leek is al een tijdje bezig, maar toegang staat nog open (al wordt het moeilijk om nog voldoende credits te halen voor succesvolle afronding, mocht je dat willen). Hier vindt je o.a. een lijst “R Background Lectures (OPTIONAL)” met filmpjes die voor mij deel overbodig zijn (zoals over het installeren van R), maar ook zaken die ik nog niet kende, zoals het genereren van gesimuleerde datasets met specifieke eigenschappen. En ook over het tekenen van grafieken zijn er een aantal video’s te vinden die het allemaal net een detailniveau dieper uitleggen dan de Statistics One trainingen. En daar komen nu ook zaken als voorspellen met boomstructuren of K-means aan bod. Zaken die mij nu nog niets zeggen (moet die filmpjes nog bekijken). Handig dus als aanvulling!
Introduction to Data Science is (nog) niet toegankelijk. Introduction to Computational Finance and Financial Econometrics start pas in februari 2014 en is wellicht niet helemaal mijn terrein. Core Concepts in Data Analysis zou wel weer aan kunnen sluiten, maar start pas in de loop van 2014. Data Analysis and statistical inference, gaat ook pas in 2014 van start en lijkt qua inhoud op Statistics One. Statistics: Making Sense of Data is al afgelopen, maar ook nog toegankelijk als archief. Grappig hier vind ik dat de onderwerpen op zich overlappen met Statistics One, maar de aanpak qua uitleg en dergelijke, ondanks dat ze beiden R gebruiken, toch heel anders is.

Duidelijk is wel dat er wat betreft basis statistiek met R inmiddels een mooi aanbod aan het ontstaan is van gratis MOOCs die qua uitleg/inhoud van de instructies goed in elkaar zitten. Door de verschillen in aanpak zou er ook ruimte moeten zijn voor verschillen in voorkeur bij studenten als het gaat om de manier waarop ze de stof uitgelegd krijgen. Let op, dat is natuurlijk slechts een deel van de uiteindelijk noodzakelijke didactische flexibiliteit die we zullen moeten bereiken!

(getipt door een tweet van Andrew Conway)

Deel dit bericht: