mei 062005
 

Na deel 1 over foto’s en deel 2 over video en audio, kan de grote groep Word, Excel, Powerpoint en PDF-documenten natuurlijk niet ontbreken. Maar waar ik gisteren kon laten zien dat veel van de beschikbare metadata ook met PHP te achterhalen was, blijkt dat nu een stuk moeilijker.
Gevaarlijke metadata
Metadata in Office-documenten kwam vorig jaar in een kwaad daglicht te staan. Zowel het bedrijf SCO (berucht van hun strijd tegen Linux) als Tony Blair als Microsoft zelf kregen er mee te maken. Op de Metadata-pagina vind je meer links hierover.

Nuttige metadata
Los van al die sensatieverhalen is de metadata in de verschillende Office-bestanden en in PDF-documenten natuurlijk ook handig.

metadata in XP - Klik voor grotere versie metadata in Word - Klik voor grotere versie

In Word wordt een deel van de metadata automatisch bijgehouden. Daarnaast is het mogelijk eenvoudige metadata zoals auteur, titel, omschrijving en meer geavanceerde eigenschappen als bron, afdeling etc. vast te leggen. De geavanceerde eigenschappen worden vaak door documentmanagementsystemen binnen bedrijven gebruikt, maar juist de eenvoudige metadatavelden in het Word-document komen overeen met de velden die ik zou moeten invoeren als ik het document upload naar een repository!

metadata in PPT - Klik voor grotere versie metadata in PPT - Klik voor grotere versie

Ook Powerpoint bevat deze metadatavelden. Die velden zijn overigens niet alleen in Office op te vragen en te wijzigen. Ook Windows XP biedt toegang tot een deel van de informatie (linkerafbeelding).

metadata in Excel - Klik voor grotere versie

Natuurlijk bevat ook Excel deze metadatavelden.

metadata in PDF - Klik voor grotere versie

De informatie die ingevoerd kan worden bij het maken van een PDF-document kunnen worden ingevoerd is een stuk beperkter, maar ook hier gaat het om informatie die ik al te vaak nog een keer heb moeten invoeren (titel, auteur, omschrijving). Deze informatie is overigens niet in Windows XP zomaar te wijzigen.

Metadata verzamelen in PHP
Wat mij heel erg verbaasde is dat ik geen enkel script in PHP gevonden heb dat in staat is deze metadata uit Office-documenten of PDF-documenten te halen. Wél overbodige adviezen om vooral geen Word te gebruiken maar over te stappen op Open Office, maar ook daar zijn geen eenvoudig te gebruiken scripts voor beschikbaar.

Ondanks dat, staat ook deze groep objecten voor mij hoog op de wensenlijst als het gaat om metadata-ondersteuning door ELO’s, repositories en aanverwante systemen. En wat natuurlijk zou helpen is als er iemand zou zijn die het voor elkaar krijgt hier een set PHP-scripts voor te maken.

Deel dit bericht:

  4 reacties aan “Nooit meer metadata invoeren – deel 3”

Reacties (4)
  1. Had je al gezien dat een aantal van die metadata (o.a. titel, onderwerp) ook als infovenstertje wordt getoond als je er in windows verkenner met je muis overheen gaat?

  2. Jouw uitgangspunt (toen je deze serie begon) was dat je (bij voorkeur) niet actief metadata wenst toe te voegen.
    In het geval van Word is e.e.a. redelijk goed te realiseren dmv een strategisch geplaatst Visual Basic scriptje wat bijvoorbeeld de eerste regel van je document als "titel" beschouwd, de eerste alinea daarna als "samenvatting" etc.
    Om dat goed te laten werken is wel een vaste structuur van het document wenselijk. Eventueel is met een aparte "stijl" voor titel en samenvatting ook het nodige te bereiken.

  3. Ik heb wel wat ervaring met het gebruik van de (ingebouwde) Visual Basic van Word. Je kunt deze helemaal programmeren om metadata te plaatsen en/of op te halen.
    Dat kan ook vanuit andere Office toepassingen, zo heb ik die metadata al eens vanuit Access opgehaald.
    Als je die VB-module als een soort API zou kunnen aanspreken vanuit PHP dan zou het extraheren van die metadata mogelijk moeten zijn. Maar met deze laatste stap heb ik geen ervaring.
    Ik zou me echter kunnen voorstellen dat het nodig is dat Office geinstalleerd staat op de server waarop dat PHP script draait. Iets wat lang niet altijd het geval zal zijn.

  4. > Had je al gezien dat een aantal van die
    > metadata (o.a. titel, onderwerp) ook als
    > infovenstertje wordt getoond als je er
    > in windows verkenner met je muis
    > overheen gaat?
    Dat is de enige plek waar ik al die ‘wolkjes’ niet irritant vind! ;-)

    Je hebt gelijk wat betreft de Visual Basic oplossing in combinatie met PHP. Kom ik vandaag op terug.

Sorry, het reactieformulier is momenteel gesloten.