Henk stelde een heel goede vraag bij mijn beschrijving van de Fujitsu ScanSnap S1500:
Ik heb nog een vraag die ik niet in je verslag tegenkwam. Ik maak voor mijn vrouw regelmatig scans voor haar administratie. Nu zijn daar zowel documenten bij die uit één A4-tje bestaan als documenten bij die uit meerdere pagina’s bestaan. De laatste moeten wel als één document worden gescand. Heeft het apparaat een instelling waarmee dat makkelijk kan: Een aantal documenten meteen na elkaar laten scannen en dat het apparaat dan weet dat dit ene vel een document is, en de volgende vier vellen het volgende document vormen. Dát is wat zo veel tijd kost als ik meerdere documenten scan op mijn HP Officejet 4500, die ook een sheetfeeder heeft.
Het was tot dat moment inderdaad zo dat ik daar ook problemen mee had. Een arbeidsintensieve manier is om de setjes documenten één voor één te scannen. Dus in het geval van Henk eerste het document met 1 A4-tje en dan het document van meerder pagina’s en zo verder. Kun je je voorstellen hoeveel werk het dan is om 5 jaar aan salarisstrookjes te scannen? En hoe weinig je dan hebt aan die sheetfeeder? Inderdaad.
Gelukkig kun je dit heel goed oplossen met behulp van Adobe Acrobat. Let op, je hebt de volledige versie nodig, niet de Reader. Bij de Fujitsu ScanSnap S1500 wordt Adobe Acrobat 9 Standard bijgeleverd. Daar kan je het mee doen. Ik heb het zelf op Adobe Acrobat Pro X (daar zijn de screenshots van) en Adobe Acrobat Pro 9 getest en ook daar werkt het (lang leve de goedkope licenties via SURFspot.nl!).
De werkwijze is niet afhankelijk van de SnapScan, je kunt het in principe doen met elke scanner waar je een sheetfeeder op hebt zitten. Ook handig dus als je wél op het werk scant!
#1 Scannen
OK, geen zorgen meer over welke documenten bij elkaar horen. Scan gewoon zo veel mogelijk documenten tegelijkertijd. Vul die sheetfeeder en sla aan het scannen. Het kan voor het verwerken van de PDF’s daarna helpen als je documenten scant die bij elkaar horen (dus gewoon 50 slalarisstrookjes tegelijkertijd in de sheetfeeder), maar dat is niet persé noodzakelijk. Wel is het belangrijk om documenten in dezelfde taal samen te scannen. Dus niet Nederlandstalige en Engelstalige documenten in dezelfde stapel scannen.
#2 OCR-en
Ik geef er zelf de voorkeur aan om altijd OCR toe te passen op de ingescande bestanden.
Bij Adobe Acrobat Pro X kies je “Gereedschappen” op de menubalk en dan Tekst herkennen > In meerdere bestanden. Je kunt dan een hele verzameling bestanden selecteren om te OCR-en. Kies hier gescande PDF’s met documenten in dezelfde taal. Als je op OK klikt, krijg je de vraag waar de resultaten opgeslagen moeten worden. Ik kies meestal voor de riskante optie en overschrijf de originelen. Het is veiliger om dat niet te doen. Klik weer op OK en je krijgt het derde venster (zie hierboven) te zien. Kies hier de taal van de documenten in de PDF’s (daarom moest je die dus bij elkaar houden). Ik kies altijd voor doorzoekbare afbeelding. Dat betekent dat de tekst vanuit de OCR “achter” de afbeelding van het document wordt opgeslagen. Dat betekent dat je scanfouten niet te zien krijgt (je zien namelijk de afbeelding). Pas als je tekst in het document selecteert en naar een andere document kopieert zie je of het OCR-en goed gegaan is. Ik gebruik het OCR-en vooral om kleine stukjes tekst te kunnen kopiëren én om de documenten te kunnen doorzoeken. Dan zijn kleine foutjes niet zo erg, ik ga ze in ieder geval niet achteraf handmatig aanpassen.
De keuze voor 600dpi is best stevig, minder zou kunnen, maar ik geef er de voorkeur aan om de documenten met zo hoog mogelijke kwaliteit te bewaren.
Als je veel documenten geselecteerd hebt en/of als het grote documenten waren dan kan het even duren. Ga dus even een kopje koffie of (ijs-)thee drinken.
#3 Bladwijzers/bookmarks toevoegen aan documenten
Als het OCR-en klaar is, kunnen we de PDF’s weer gaan opsplitsen. Daarbij slaan we twee vliegen in één klap, want we zorgen er namelijk meteen voor dat de bestanden zinvolle namen krijgen.
Je kunt het venster voor de bladwijzers/bookmarks openen door een PDF te openen en dan op het icoontje daar voor aan de linkerkant te klikken. Dit venster zal in eerste instantie nog helemaal leeg zijn. Het document is geopend op de eerste pagina en je kunt je eerste document zien. Klik nu op het knopje voor het invoegen van een nieuwe bladwijzer. Type als titel van de bladwijzer de naam in die je wilt dat het bestand straks gaat krijgen. Dus bijvoorbeeld “2005-06-21 Hoefnagels factuur” of “2009-07 Fontys Salaris”. Zorg er voor dat alle bladwijzers een unieke naam hebben, immers er kunnen geen twee bestanden gemaakt worden met dezelfde naam en Acrobat is niet zo slim om er zelf nummertjes achter te zetten. Er mogen dus ook nog geen PDF’s in de map voor komen die al een naam hebben die gelijk is aan de naam van een van je bladwijzers.
Klik nu op de knop “pagina naar beneden”. Bij Acrobat X was die knop bij mij standaard te zien in de werkbalk net boven het document. Dat is wel zo handig. In Acrobat 9 stond die werkbalk niet aan en moest ik eerst even de werkbalk navigatie zichtbaar maken en boven het venstertje slepen om dezelfde situatie te krijgen als dat je zien in de schermafbeelding hierboven.
Blader nu door de PDF totdat je bij het volgende document in de set komt. Klik weer op de knop voor het toevoegen van een bladwijzer en voeg de naam voor dat tweede document toe.
Werk zo door het hele document heen.
Tip: In het voorbeeld hierboven zie je dat ik door een set salarisstrookjes van Fontys verwerkt heb. De bladwijzer “2009-07 Fontys Salaris” heb ik nog gewoon ingetypt, maar toen heb ik “Fontys Salaris” gekopieerd zodat ik bij alle volgende bladwijzers alleen jaar en maand hoefde in te typen en dan met CTRL+V de toevoeging “Fontys Salaris” kon inplakken.
#4 Opsplitsen van de documenten
Als je alle bladwijzers toegevoegd hebt, kan het daadwerkelijke opsplitsen beginnen. Bij Adobe Acrobat X zit de optie onder Gereedschappen > Pagina’s > Document Splitsen. Bij Acrobat 9 kun je het vinden bij de menu-optie Document > Split Document.
Kies in het popup-menu dat verschijnt de optie “Bladwijzers op hoogste niveau”.
Klik dan op “Uitvoeropties”.
Kies hier voor de optie “Bladwijzernamen voor bestandsnamen gebruiken” en zorg dat “Bestaande bestanden niet overschrijven” aangevinkt is.
Klik op OK.
Klik nu nog een keer op OK.
Het resultaat ziet er zo uit:
Klaar.
Ik heb nu zelf zo een stevig aantal documenten verwerkt en moet zeggen dat het me prima bevalt. Vooral omdat je de documenten op het beeldscherm kunt zien terwijl je je de bladwijzers aan maakt. Je kunt ter plekke kiezen of je documenten splitst of toch bij elkaar houdt.