Als je R zegt, dan zeg je “open source”, “statistiek”, “hacken”, “vrij”. Als Microsoft dan een leverancier van zowel open source als closed source producten voor R overneemt (Revolution Analytics), dan gaan er links en rechts alarmbellen af. Natuurlijk, ze kopen niet de makers van R zelf op, maar de vraag ontstaat natuurlijk al snel: wat moeten ze hiermee?
Tijdens de Ignite conferentie eerder deze maand hebben ze een tipje van de sluiter opgelicht. En het is een tipje dat eigenlijk heel erg logisch klinkt: ze gaan de kennis en producten van het bedrijf gebruiken om R ondersteuning in SQL Server 2016 in te bouwen.
Nou zou het “oude” Microsoft het daarbij niet kunnen laten om R “beter” te maken door het net iets aan te passen qua syntax etc. Het verhaal zoals het nu gepresenteerd wordt lijkt echter te passen bij het “nieuwe” microsoft: zo probleemloos mogelijk integreren van de verschillende tools. Dus zodat je gewoon gebruik kunt blijven maken van de plugins die R kent, het uitvoeren van de verschillende modellen etc. op de R-engine, maar dan met een aantal aanpassingen en verbeteringen die inderdaad het leven van gebruikers binnen grotere bedrijven een stuk eenvoudiger zouden moeten maken.
Het probleem dat beschreven werd zal namelijk heel herkenbaar zijn: je hebt mensen die verantwoordelijk zijn voor het beheer van databases en bestanden binnen een organisatie en je hebt mensen die van tijd tot tijd analyses willen uitvoeren op die data. Dat kan fraudedetectie zijn, maar neem binnen onderwijsinstellingen bijvoorbeeld de analyses in het kader van learning analytics. Of nog kleiner/specifieker: analyseren van het kijkgedrag van studenten binnen een MOOC of voor opnames van colleges of kennisclips met behulp van R. Als je bijvoorbeeld Mediasite gebruikt voor je video’s, dan maakt ook die gebruik van SQL Server voor de opslag van de logdata. Als je daar vanuit R analyses op wilt uitvoeren, dan moet je die data eerst van de server naar je lokale computer halen. Of als je R ergens op een server hebt staan, dan moet je de data eerst van de SQL Server naar die R-server overpompen. Als dat een grote hoeveelheid historische data is, dan moet je bij het uitvoeren van de analyses gaan stoeien met de geheugenbegrenzingen die R daarbij heeft (of die je machine daarbij heeft). Of het gegeven dat R (blijkbaar) maar op één processor tegelijkertijd die analyses uitvoert.
De producten van Revolution Analytics richten zich op het optimaliseren daarvan. Maar de integratie van (een deel) van de processing ín SQL Server zelf heeft nóg een voordeel: de data hoeft niet van de server af. De analyses kunnen worden uitgevoerd binnen de beveiligingcontext van de database-server. De beheerder kan processor- en geheugencapaciteit voor het proces beschikbaar stellen. En de data-analist krijgt alleen die data ter beschikking waar hij/zij rechten toe heeft. Dus als ik analyses mag uitvoeren voor alle opnames van alle vakken/docenten/studenten dan kan ik die draaien, mag ik dat slechts voor één vak of de vakken van één opleiding/faculteit, dan draai ik dezelfde scripts en dezelfde modellen, maar krijg ik een subset van de data.
Interessant, ik ben benieuwd of er leveranciers van lecture capture tools zijn die hiermee in 2016 aan de slag gaan.
Wil je de hele video zien met de uitleg en de demo, een exemplaar van de sessie-opname is opgenomen in deze blogpost.
Interessant: R integratie in SQL Server 2016 http://t.co/RXny3eixCt