Slechte metadata in PDF-documenten en andere frustraties

Mijn EndNote bibliotheek bevat na een jaar promoveren inmiddels bijna 800 verwijzingen naar voor mij relevante literatuur. Bij een groot deel daarvan heb ik een PDF-document opgeslagen met het betreffende artikel, een uitdraai van de webpagina, het rapport of soms zelf digitale versies van hele boeken (die zijn ook legaal soms online te vinden!).
EndNote bevat alle voor mij relevante metadata, zoals titel, auteur, jaar van publicatie, soort bron, plek van publicatie etc.
Die informatie heb ik meestal niet zelf hoeven in te voeren omdat repositories die die literatuur bevatten vaak exportopties hebben voor de metadata. En ook Google Scholar heeft een handige optie waarbij je bij een zoekresultaat een link krijgt waarmee de gegevens direct in EndNote geïmporteerd worden (wel in alle gevallen even controleren, want ook hier zitten wel eens foutjes in, ook bij officiële repositories!).

Toen ik die PDF documenten op mijn Kindle zette zag ik echter hoe slecht het gesteld is met de metadata die in de PDF-bestanden zelf zit. Je zou verwachten dat daar in ieder geval de titel van het artikel en de auteur(s) vermeld zouden staan. Maar niets is minder waar. Vaak zijn de PDF-documenten gemaakt door middel van bijvoorbeeld het printen van een Word-document. De titel van het Word-document wordt dan de titel van de PDF, soms komt dat in de buurt, maar meestal niet. Auteur van het document wordt dan de gebruikersnaam die bij Word is ingesteld.

Vervelend, want als ik me had kunnen aanwennen om bij elk nieuw bestand dat ik opsloeg in EndNote de metadata aan te passen dan was het niet zo’n klus geweest. Nu met die grote hoeveelheid PDF-bestanden heb ik daar niet zo heel veel trek in.
Boos wordt ik echter als blijkt dat zo’n PDF-document, dat gewoon legaal ter download online aangeboden wordt aan iedereen die het wil downloaden, beveiligd is én slechte metadata bevat. Dan willen ze namelijk zelfs voorkomen dat ik de metadata in het document wijzig/verbeter. Natuurlijk laat ik dat zomaar gebeuren.

Het betreffende document had als titel de naam van het TIF-bestand dat er aan ten grondslag had gelegen en als auteur “administrator”. Maar het was tegen alles beveiligd, behalve printen.

Prima, dacht ik, dan print ik het wel opnieuw naar PDF en dan is de beveiliging er zo vanaf. Helaas werkte dat niet. Zowel Adobe Acrobat Pro als het gratis Bullzip PDF Printer (dat op mijn laptop stond) gaven tijdens het printen aan dat het wegens de beveiliging op het oorspronkelijke bestand niet mogelijk was om een nieuwe PDF te maken. 🙁

Dan maar het wachtwoord er eerst vanaf halen. Daarvoor maak ik normaal gesproken gebruik van een gratis tool genaamd Free PDF Unlocker. Daarbij hoef ik maar het PDF-document te slepen naar het icoontje van het programma en er wordt een nieuwe kopie gemaakt zonder wachtwoord. Helaas voor mij werkt het programma niet onder Windows 7 64 bits.

Op mijn laptop met Windows XP werkte het zonder problemen en binnen een minuut was het wachtwoord verdwenen en kon ik de metadata zonder problemen aanpassen.

PDF Unlocken op Windows 7 64 bit
Natuurlijk nam ik geen genoegen met het feit dat ik dit nou niet op mijn 64 bits OS kon doen. Helaas lukte het me niet om de installatie van het oorspronkelijk programma alsnog voor elkaar te krijgen. Ook de website van de persoon die het script beschikbaar gesteld heeft was weg, dus ook daar geen optie om een verzoek tot aanpassen in te dienen.
Het blijkt namelijk tamelijk eenvoudig te zijn om e.e.a. toch werkend te krijgen. Het enige probleem is namelijk dat de installer ten onrechte eist dat je een 32 bits versie van Windows hebt draaien.

Het script maakt gebruik van het gratis Ghostscript. Dat is dezelfde software als dat je moet installeren wanneer je bijvoorbeeld Bullzip PDF Printer (is overigens een aanrader als je gratis vanuit elke willekeurige applicatie PDF-document wilt kunnen maken) wilt gebruiken. Hoewel Ghostscript ook lijkt aan te geven alleen op een 32 bits versie van Windows te werken (het bestand heet gswin32.exe) is dat niet het geval. Je kunt gewoon de meest recente versie (ik heb nu versie 8.70 draaien) downloaden en installeren.

Het programma bevatte daarnaast 2 .cmd bestanden (EPStoPNG.cmd en unlockpdf.cmd), dat zijn een soort moderne Batch-bestanden, waarmee je een conversie-opdracht kunt opstarten. Ik heb nog niet ontdekt waarvoor “EPStoPNG.cmd” dient, ik had namelijk alleen “unlockpdf.cmd” nodig. Dat cmd bestand roept gswin32.exe aan met daarbij een aantal opties. Als je een snelkoppeling maakt naar dat bestand, dan kun je een PDF-document dat beveiligd is daar gewoon op slepen en dan start het cmd bestand met de conversie. Het maakt dan een nieuwe versie van de PDF aan zonder wachtwoord.
Ik heb unlockpdf.cmd in mijn geval in “C:\Program Files (x86)\gs\gs8.70” staan daarom verwijst hij naar “bin\gswin32c” (de gswin32c.exe staat namelijk in de submap bin).
Voor wie het wil gebruiken heb ik de cmd en het bijbehorend ico-bestand (kun je de snelkoppeling een mooi icoontje geven) in een ZIP-bestand online gezet.
Zonder installer, je zult dus zelf bovenstaande stappen (Ghostscript installeren, bestanden in de map erbij zetten, snelkoppeling op bureaublad aanmaken) moeten uitvoeren.

Ook interessant:

0 0 stemmen

Bericht waardering

3 Reacties

michlr

16 jaren geleden

Ik heb ook graag de juiste metadata in het bestand zelf. Mijn zoektocht naar software waarmee je de metadata van pdf’s kan beheren zoals je dit met mp3’s kunt, leidde bij mij tot de aanschaf van PDF Explorer ( http://www.rttsoftware.com/ ) waarvan er net een nieuwe release uit is. Ik heb echter nog niet gevonden hoe je de filename metadata met de bestandsnaam laat invullen. Daar slaagt A-PDF ( http://www.rttsoftware.com/ ) dan weer wel in.

Raymond

Je noemt zelf al de kernen van het probleem. De bulk van PDF’s zijn van oorsprong Word documenten en ik ken maar weinig voorbeelden (en mensen) die op de metadata van Office documenten letten. En dat zie je dan dus (niet) terug in PDF documenten.

Dat zie je bij ons altijd fraai terug op ons intranet via Sharepoint. Geuploade documenten tonen dan bij de titel de titel zoals die in de metadata van het Office document staat en je komt heel wat bizarre dingen tegen. Ik heb wel eens het idee dat alle documenten terug te voeren zijn op 1 oerdocument wat 10 jaar geleden gemaakt is en vervolgens door iedereen bewerkt en aangepast is 😉

@michlr Dat PDF Explorer klinkt heel interessant maar ziet er wat knullig uit. Het werkt wel handig om handmatig de velden snel te kunnen veranderen?

Auteur

Pierre

Reageer op Raymond

Klopt, en ik maak me daar zelf ook schuldig aan (zeker bij PowerPoint bestanden, want daar is het nou eenmaal veel eenvoudiger om een kopie te pakken van een oude presentatie dan om nieuw te starten). Vond het alleen opvallend dat ook repositories (toch vaak onderhouden door mensen die het nut van metadata wel inzien) niet de metadata in het bestand zelf bijwerken.