Nooit meer metadata invoeren – deel 10

“We cannot (solely) rely on humans for metadata creation: humans “don’t scale” and humans are not perfect. More importantly, producing metadata is not exactly fun! We want to enable automatic metadata generation and have developed a software framework for this purpose. As you would expect, the framework can generate metadata from the content of the learning object: as an example, a simple analysis of a limited amount of textual information suffices to determine the language of the learning object with very reasonable accuracy.”

(bron)

Je zou bijna denken dat ik het bespreken van deze site met opzet pas aan het einde van een heel traject gepland had, maar de FURL-datum is toch écht pas van vanochtend.

De website over het onderzoek naar Automatic Metadata Generation (AMG) is blijkbaar al sinds afgelopen januari online, maar ik kende hem nog niet. Hij is te vinden in de achtertuin van Erik Duval. Het onderzoek (zie ook deze publicatie PDF), en de software die je kunt downloaden of op de site testen, gaat een paar stappen verder dan wat ik afgelopen week bekeken heb. Het gaat namelijk niet alleen uit van de metadata die in de objecten zelf aanwezig is, maar kijkt naar vier mogelijke bronnen voor metadata:
1) de inhoud van het document (document content)
2) de ‘omgeving’ van het document (document context)
3) het gebruik van het document (document usage)
4) samengestelde structuren (de andere objecten waar het document samen mee gebruikt wordt)

Voor de contextuele informatie wordt gebruik gemaakt van Blackboard, de ELO die in Leuven gebruikt wordt.
Interessante vraag waar het onderzoek mee te maken kreeg is: wat is “correcte” metadata? En hoe bepaal je dat?
Ok, ik weet het, niet iedereen vind dat zo interessant, ik wel dus. Ik kan me ook voorstellen dat als je zegt “en daar hebben we niet persé een bibliothecaris bij nodig”, je jezelf niet overal populair maakt.

De site maakt het mogelijk om zelf online een aantal resultaten te zien. Daar kun je ofwel een aantal daar beschikbaar gestelde bestanden voor gebruiken, ofwel zelf een bestand uploaden. Hierboven zie je twee voorbeelden van resultaten.

Ik had nogal wat problemen met het zichtbaar krijgen van de metadata. De LOM-structuren kreeg ik in ieder geval niet te zien. Ook bleek bijvoorbeeld de titel-informatie die via EXIF wel in een van mijn testafbeeldingen aanwezig was niet gebruikt te worden.
Maar daar gaat het natuurlijk nog niet om. Het is een voorbeeld van een tussenresultaat van een interessant onderzoek dat de moeite waard is om in de gaten te houden. En laat ze er nou ook nog voor gekozen hebben om de nieuwsvoorziening rond de site in de vorm van een weblog op te zetten. Dat is dus weer een feed voor in SharpReader. :-)

Ook interessant: