Vamos hoje aprender como fazer a extração de Textos re imagens no Ubuntu, Linux Mint, Duzeru, Fedora,Debian e derivados. Confira!!
Muitos usuários ainda não conhecem essa ferramenta que é bastante útil. Primeiro, instale os utilitários necessários, em alguns casos o pacote pode vir já instalado em sua distribuição, testei no Ubuntu 16.04 LTS e o pacote já veio instalado, então é só executar os comandos sem precisar instalar nada.
Ubuntu/Linux Mint, Duzeru
sudo apt-get install poppler-utils
Red Hat/Fedora
sudo yum install poppler-utils
Para fazer a instalação em outras distribuições procure por poppler-utils em seu gerenciador de pacotes.
Este comando irá extrair todas as imagens de “pdffile.pdf” e colocá-los no diretório /home/<seusuario>/pdfimages/:
Exemplo
pdftotext pdffile.pdf
Vale observar que este comando só vai extrair o texto real. Se o PDF contém imagens com texto impresso sobre eles, então isso não vai funcionar.
Até a próxima!!!
Nenhum comentário:
Postar um comentário