mei 072005
 

Tegen beter weten in heb ik toch nog maar een keer geprobeerd of ik niet toch ook de in Word, Excel, Powerpoint en PDF-documenten aanwezige metadata kon filteren. Gisteren gaf ik al aan dat ik het heel vreemd vond als dat niet met PHP zou kunnen, maar na vandaag moet ik concluderen dat dat waarschijnlijk simpelweg niet kan.
Wel heb ik een tweetal (gratis) tools gevonden waarmee je onder Windows de PDF-metadata kunt wijzigen en kunt exporteren naar XML.
Eigenschappen in PDF-documenten
De hoeveelheid informatie die je kunt vastleggen in de eigenschappen van een PDF-document is relatief beperkt.

PDF info - Klik voor grotere versie

Bovenstaande afbeelding laat zien wat er allemaal in het programma PDF Info gewijzigd kan worden. In praktijk zul je de gegevens: auteur, titel, omschrijving, trefwoorden willen invullen/aanpassen. Met dit gratis tooltje kun je dat doen voor bestaande PDF-bestanden ook als je die zelf niet gemaakt hebt en als je zelf niet over de volledige Acrobat versie beschikt.

PDF info - Klik voor grotere versie

In Acrobat Reader kun je die informatie dan weer opgevragen (zie hierboven).

PDF analyzer - Klik voor grotere versie

PDF Analyzer is eveneens gratis (er is ook een niet-gratis PRO-versie) en richt op het verzamelen van informatie uit een PDF-document. Hier kun je die informatie in de gratis versie niet wijzigen.

PDF analyzer - Klik voor grotere versie

De informatie kan opgeslagen worden in een XML-bestand. En kan dan verder verwerkt worden, bijvoorbeeld geconverteerd worden naar een XML-structuur zoals beschreven in de LOM-standaard.

Deze twee programma’s helpen weliswaar niet direct mee aan het beschikbaar krijgen van de gewenste metadata bij het toevoegen van PDF’s aan bijvoorbeeld een ELO, maar met name het eerste tooltje kan wel gebruikt worden om er voor te zorgen dat een PDF op zijn minst de meest noodzakelijke informatie bevat.
Veel van de gratis of goedkope PDF-conversieprogramma’s beiden namelijk niet de mogelijkheid om dat bij het aanmaken van de PDF toe te voegen. Op deze manier kan dat achteraf alsnog.

Eerdere berichten:
* deel 1 ging over foto’s;
* deel 2 over video en audio;
* deel 3 ging over Word, Excel, Powerpoint en PDF-documenten.

Deel dit bericht:

  3 reacties aan “Nooit meer metadata invoeren – deel 4”

Reacties (3)
  1. In aansluiting op mijn vorige reactie: als het er alleen maar om gaat om een net xml-bestand te genereren (de metadata-sectie van een IMS-manifest bijvoorbeeld) dan is dat uitstekend realiseerbaar met Visual Basic.

  2. Ik weet niet of mijn reactie hier op de juiste plaats is (er zijn meerdere delen over metadata).

    Ik ben thuis begonnen vanaf 1 januari 2005 met een digitaal archief. Denk aan polissen, bankafschriften, jaarafrekeningen van….. voorwaarden van….., handleidingen van…., rekeningen van….
    Als ik iets op papier aangeleverd krijg vraag ik aan het bedrijf een digitaal exemplaar of ik scan het papiere stuk in en sla ik het digitaal op (als er geen digitaal exemplaar beschikbaar is, of het bedrijf wil het niet digitaal geven).

    Nu zou ik graag zelf aan ieder document (ongeacht of het een .tiff, .jpg, .pdf, etc.) metadata willen toekennen. Nee, niet in de vaste aanwezige velden als titel, onderwerp, trefwoorden, etc….maar in zelf toegevoegde metadata velden. Of je zou de aanwezige velden moeten kunnen hernoemen.

    Stel je voor mijn digitaal archief over 30 jaar voor. Het dan kunnen zoeken naar metadata kenmerken zou wel erg prettig zijn om nog iets terug te kunnen vinden.

    Wat nu ? :-)

  3. Terechte vraag, geen gemakkelijke oplossing. Uitdaging blijft sowieso om de bestanden over 30 jaar nog te kunnen lezen. Dat heeft niet alleen met het bestandsformaat maar ook het opslagmedium te maken. Er zijn initiatieven om een PDF-Archive standaard af te spreken waarbij er voor gezorgd wordt dat ook dat soort opgemaakte bestanden over 30 jaar nog leesbaar is. Een van de eisen die ze daar stellen is dat er ook voldoende metadata voor zoeken etc. moet zijn opgenomen. Dat zal meer zijn dan de paar velden waar ik het nu over had.
    Mijn laptop loopt vast op het gigantisch specificatiebestand voor PDF 1.4, maar ik kan me herinneren dat ik in een van de PDF-bestanden die ik gebruikte om mijn eigen scripts te testen een stuk RDF tegen kwam met daarin (ook) de metadata. Dat soort structuren, op basis van XML of RDF dus tekstgebaseerd en redelijk gemakkelijk te begrijpen ook zonder documentatie, zul je ook over 30 jaar nog wel kunnen laten lezen.
    Als je nu een applicatie gebruikt voor het vastleggen van die eigen metadata lijkt me dat ook geen probleem. Mits je maar in staat bent die informatie ook weer op te slaan in een formaat dat je hun manipuleren/hergebruiken. Een gewoon teksbestand met komma’s tussen de velden is dan haast al voldoende (dat kun je zelf dan wel weer omzetten in iets waar je wél wat mee kunt).

    Wil je de metadata ín het document zelf opslaan dan ben je wat begrensder in je mogelijkheden dan wanneer je de metadata erbuiten opslaat. Het gaat/ging mij hier echter ook vooral om te bekijken wat er al mogelijk was als je alleen de in het document aanwezige of op te slaan metadata gebruikt. En dat blijkt heel wat te zijn. :-)

Sorry, het reactieformulier is momenteel gesloten.