Hromadný převod pdf do čistého textu
Jak převést několik PDF dokumentů do plaintextu.
Je třeba nainstalovat nástroj xpdf.
Pro převod všech pdf souborů v aktuální složce použijte příkaz:
ls | grep .pdf$ | xargs -n 1 pdftotext
Vysvětlení:
ls – vylistuje soubory v aktuálním adresáři
grep .pdf$ – vyfiltruje pouze soubory s příponou “.pdf”
xargs -n 1 pdftotext – Vezme vždy jedno jméno souboru a předá ho jako parametr příkazu pdftotext, který provede konverzi.