Para extrair as páginas de um PDF como imagens em um script Bash, você pode utilizar o pdftoppm
, que é uma parte do pacote poppler
disponível nos repositórios do Arch Linux. Este software converte cada página do PDF em uma imagem em formatos como PNG ou JPEG.
Aqui está um exemplo de script que realiza essa tarefa:
#!/bin/bash #Autor: Cleiton Rodrigues <cleitonrdesouza@gmail.com> 2024-08-16 #Se o ''pdftoppm'' não estiver instalado, você pode instalá-lo facilmente com: # sudo pacman -S poppler # Verifique se o pdftoppm está instalado if ! command -v pdftoppm &> /dev/null; then echo "O pdftoppm não está instalado. Por favor, instale o poppler e tente novamente." exit 1 fi # Verifique se o usuário forneceu um arquivo PDF de entrada if [ -z "$1" ]; then echo "Uso: $0 <arquivo.pdf> <formato>" echo "Exemplo: $0 documento.pdf png" exit 1 fi # Nome do arquivo PDF de entrada input_pdf="$1" # Formato da saída (png, jpg, etc.) output_format="${2:-png}" # Prefixo para os arquivos de saída output_prefix="${input_pdf%.*}_page" # Extraia cada página como uma imagem pdftoppm -${output_format} "$input_pdf" "$output_prefix" echo "Páginas extraídas como imagens no formato $output_format"
Como funciona o script:
Como usar o script:
pdf_to_images.sh
.chmod +x pdf_to_images.sh
./pdf_to_images.sh documento.pdf jpg
Esse comando irá gerar imagens no formato JPG com os nomes documento_page-1.jpg
, documento_page-2.jpg
, e assim por diante, correspondendo às páginas do PDF.
Instalação do pdftoppm
:
Se o pdftoppm
não estiver instalado, você pode instalá-lo facilmente com:
sudo pacman -S poppler
Isso instalará o pdftoppm
junto com outras ferramentas úteis para manipulação de PDFs.
— Cleiton Rodrigues de Souza 2024/08/16 23:49