reCAPTCHA: Hoe een konijn boeken kan digitaliseren

reCAPTCHA - Klik voor grotere versie

Als ik de reacties bij TechCrunch mag geloven dan weet iedereen al wat reCAPTCHA is. Maar voor mij was het toch even een seintje om net wat verder te lezen dan dat ik gisteren gedaan had. Toen was ik gewoon op zoek naar een CAPTCHA-optie voor het formulier waarmee je berichten naar ons Nabaztag/tag konijn kunt sturen.
reCAPTCHA was gewoon handig
Natuurlijk had ik me verbaasd over het feit dat je bij deze CAPTCHA-dienst niet een serie willekeurige letters en cijfers, maar twee woorden in het Engels moet intypen. Maar ik had me er verder niet druk over gemaakt.
Het feit dat reCAPTCHA ook een audio-versie heeft maakte het, naast de eenvoudige implementatie in PHP gewoon een handige en snelle manier om spammers buiten te houden.

Inscannen van boeken
Maar de combinatie van twee woorden wordt met een reden gebruik: reCAPTCHA is een project van de Carnegie Mellon University. En daar zijn ze bezig met het inscannen van boeken. Bij het OCR-proces worden de ingescande woorden, die dan nog afbeeldingen zijn, omgezet in tekst. Maar dat gaat niet altijd goed, soms (vaak?) herkent de software een afbeelding niet.

1 + 1 = 3
reCAPTCHA gebruik één afbeelding van een woord dat het wel kent + één afbeelding van een woord dat het niet kon vertalen en laat die zien. Als een gebruiker het ene woord correct invoert dan kan het andere ingevoerde woord gebruikt worden als mogelijk juiste tekst voor de afbeelding.
Het systeem gaat niet over één nacht ijs en zal het woord ook nog aan een paar anderen aanbieden om te kijken of die hetzelfde invoeren.

Hoe een konijn een boek digitaliseert
Dus elke keer als je een bericht verstuurt via de Nabaztag/tag door middel van het formulier op deze pagina helpt het dus mee om boeken uit the Internet Archive te digitaliseren.
Wil je horen hoe zo’n bericht dan klink, luister dan naar de EduKast aflevering van deze week. Je hoort hem helemaal op het einde van de aflevering.

En omdat het gratis is, kun jij het natuurlijk ook gebruiken. Ook als je geen wifi-konijn hebt!