Terwijl ik nog even aan het wachten ben op de definitieve beoordeling van twee MOOCs die onderdeel uitmaken van de Data Science specialisatie op Coursera en aan het inschatten ben hoeveel ik er nu tegelijkertijd er bij wil/kan doen, kom ik zo nu en dan van die mooie ‘onderzoekjes’ tegen die laten zien hoe je tamelijk subjectieve inschattingen (is een film overgewaardeerd of ondergewaardeerd) kunt proberen objectiever te maken als je over de juiste (hoeveelheid) data en tools beschikt. En R is daar een mooi hulpmiddel bij.
In dit bericht wordt ingegaan op de vraag welke films overgewaardeerd of ondergewaardeerd zijn. De analyse is nog niet optimaal, maar laat wel al zien dat voor het merendeel van de films blijkt dat de experts en het bredere publiek het met elkaar eens zijn. En het is hoe dan ook wel een leuk voorbeeld van hoe je zoiets nu wél kunt doen, terwijl het voorheen zo goed als onmogelijk was omdat de data er simpelweg er niet was.