Question Extraction d'images incorporées à partir d'un PDF


Avant de commencer à utiliser Ubuntu, j'ai utilisé le lecteur Nitro PDF pour extraire automatiquement des images de fichiers PDF. Existe-t-il un lecteur PDF pour Linux?

Je voudrais pouvoir extraire des images plus rapidement / plus facilement que lorsque vous prenez un instantané.


138
2018-06-12 22:36


origine


Vous souvenez-vous de la qualité du NitroPDF avec les images vectorielles? Pouvez pdfimages faites-le mieux / pire que NitroPDF? - Léo Léopold Hertz 준영
Duplicata possible de outil en ligne de commande pour extraire en vrac des images d'un pdf? - funky-future
@ funky-future Clairement, les deux questions sont des doublons mais votre cible dupliquée n'a que deux réponses et l'une de ces deux réponses est une réponse anti-spam, donc la direction de la duplication doit être inversée pour éviter que cette question ne soit martelée par le dupe. - karel


Réponses:


Utilisation pdfimages

pdfimages est un outil d'extraction d'images PDF qui enregistre les images dans un fichier PDF au format PPM, PBM, JPEG ou JPEG 2000.

C'est une partie de la poppler-utils paquet, que vous devrez installer.

Usage:  pdfimages [options] <PDF-file> <image-root>

Exemple: La section suivante extrait toutes les images d'un fichier PDF et les enregistre au format JPEG.

pdfimages -j in.pdf /tmp/out

Va enregistrer des images à partir d'un fichier PDF in.pdf dans les fichiers /tmp/out-000.jpg (ou /tmp/out-000.pbm; voir ci-dessous), /tmp/out-001.jpg, etc.


Le pdfimages page de man explique:

-j:  Normally, all images are written as PBM (for monochrome images) or PPM for
     non-monochrome images) files. With this option,  images in DCT format are
     saved as JPEG files. All non-DCT images are saved in PBM/PPM format as usual.

169
2018-06-12 23:06



Serait bien d'avoir une solution qui extrait les images dans son format natif. Le recodage des fichiers JPEG n'est pas vraiment idéal. - Christian
@Christian de la page de manuel -all Write JPEG, JPEG2000, JBIG2, and CCITT images in their native format. CMYK files are written as TIFF files. All other images are written as PNG files. This is equivalent to specifying the options -png -tiff -j -jp2 -jbig2 -ccitt. - wil93
S'il vous plaît noter que le -all switch est uniquement pris en charge dans les révisions récentes de poppler-utils. Par exemple, si vous êtes encore au 12.04, vous ne pourrez pas accéder à cette option - Glutanimate
Si vous ne pouvez pas utiliser -all aller pour les formats PNM. Ils sont sans perte et vous pouvez post-traiter les images, par ex. en PNG. - Tomasz Gandor
@Christian, utilise $ pdfimages -list <PDF-file> pour vérifier le format d'origine dans la colonne "enc", vous n'avez pas besoin de ré-encoder l'image dans un autre format. - Jose Barakat


J'utilise souvent Inkscape pour cela. Chargez la page et supprimez tous les autres éléments. L'avantage est que vous pouvez obtenir des images vectorielles en SVG et les modifier à votre guise.


18
2017-09-11 13:12



Certains fichiers PDF ne peuvent être correctement importés qu'avec l'importation interne d'Inkscape (l'importation de poppler / cairo ou pdfimage ne peut pas être analysée correctement). Une fois importé, copiez et collez l'image dans un nouveau fichier et redimensionnez la page à la sélection graphicdesign.stackexchange.com/a/21638/95041 - sdaffa23fdsf


Vous pouvez également essayer pdfmod. C'est une interface graphique (interface graphique) qui peut extraire des images et effectuer d'autres manipulations de base en pdf.


4
2018-06-13 17:18



Hmm, semble un peu buggy pour moi. Insertion d'un fichier PDF contenant principalement des images violettes et des images verdâtres. - DBX12


J'ai un fichier PDF à double colonne avec des images incorporées créées avec LaTeX où les images originales ont été fournies en tant que fichiers EPS. J'ai essayé la solution proposée basée sur pdfimages, mais malheureusement, il n'a renvoyé aucune image. J'ai ensuite essayé d'utiliser Inkscape, mais les images SVG générées étaient déformées et je n'ai pas eu de chance de les exporter en EPS.

Le logiciel qui a fonctionné pour nous était le MasterPdfEditor.

Voici la procédure

  • Ouvrez votre fichier en utilisant Master PDF Editor
  • Utilisez le outil d'édition (Alt + 1) pour sélectionner l'image à extraire
  • Copiez la figure (Ctrl + C)
  • Cliquez sur le cadre en pointillé autour de l'image et consultez la barre latérale droite (Inspecteur d'objets) et cliquez sur "Geomerty". Là vous pouvez voir la taille de votre sélection
  • Créez un nouveau fichier (Ctrl + N). Il vous demandera de fournir la taille de la page. Indiquez la taille exacte de votre image et créez le nouveau fichier
  • Maintenant, c'est un peu délicat: collez l'image (Ctrl + V). L'image peut ne pas apparaître dans le nouveau fichier. Utilisez les flèches pour le déplacer jusqu'à ce que vous puissiez le tracer.
  • Utilisez les flèches pour centrer l'image dans la nouvelle page
  • Enregistrer en PDF

Le résultat est de très haute qualité, mais le logiciel n'est pas gratuit. Il existe une version de démonstration qui "vous permet d’essayer toutes les fonctionnalités", mais comprend "l’ajout d’un filigrane sur le fichier de sortie". Pour être franc, je n'ai pas remarqué de filigrane dans le PDF produit.


4
2018-04-12 16:50



Ceci est Ask Ubuntu ... Nous aimons open source ici et votre solution est une solution commerciale à code fermé ... Comment est-ce mieux que les réponses déjà votées? (-1 dans l'intervalle) - Fabby
@Fabby Merci pour les commentaires. Je ne le savais pas. Existe-t-il une telle règle sur askubuntu.com? Cependant, dès que vous ouvrez Centre logiciel Ubuntu, vous obtenez des suggestions pour des applications non-libres. - Pantelis Sopasakis
Non, il n'y a pas de "règle" et c'est pourquoi je n'ai pas voté pour supprimer cette réponse, mais il existe de meilleurs outils gratuits (comme dans la bière gratuite). et la liberté d'expression), c'est juste une opinion. - Fabby
+1. J'ai utilisé la ligne de commande ImageMagick, mais c'est une solution intéressante pour ceux qui recherchent une interface graphique. - rpmcruz
Cela fonctionne pour certaines personnes, c'est assez bien. Ne sois pas nazi ... Je ne sais pas qui nous sommes. Vous pouvez parler juste pour vous-même. +1 pour la réponse - sdaffa23fdsf


J'utilise pdfimages qui est un outil de ligne de commande et ça marche très bien pour moi. Il est très facile à utiliser et vous pouvez utiliser l'option --help pour en savoir plus sur son utilisation. J'utilise Ubuntu et il est pré-installé. Si vos fichiers pdf sont cryptés ou protégés par mot de passe, il existe des options pour cela, donc cet outil fonctionne très bien. Tu peux lire plus à propos de pdfimages ici 


2
2017-07-24 01:39



Veuillez lire d'autres réponses avant de poster la votre. Remarquez qu'il y en a d'autres qui couvrent cela. - edwin
Ok, désolé :) J'ai pensé à poster le mien car il a quelques informations sur les fichiers pdf protégés par mot de passe et j'explique que cet outil a ces options, et j'ai posté un lien qui est un tutoriel sur cet outil. - jetbird13
Si vous gagnez suffisamment de réputation, vous pouvez commenter les réponses des autres ou les augmenter. - edwin


Si vous avez besoin d'une image recadrée au format pdf / eps, extrayez une page avec l'image en utilisant pdfmod(comme suggéré par To Do).

Puis en utilisant pdfcrop vous pouvez le recadrer correctement en définissant les marges par essais et erreurs:

pdfcrop --margins "-15 -50 0 -140" extracted_page.pdf

2
2018-06-12 14:17





Avec pdfimages, l'image extraite peut être en deux parties ou plus. Une manière simple de les rassembler sans s'inquiéter des formats extraits consiste à importer les parties dans LibreOffice Draw, à recadrer avec le dialogue de recadrage, à positionner les pièces, à ajuster la taille de la page et à exporter dans le format de votre choix.


1
2018-01-06 23:54





Si vous souhaitez rogner une image à partir d'un pdf avec un pdfviewer, vous pouvez essayer okular. Il peut rogner n'importe quoi (textes ou images) au format png ou jpeg. Si vous voulez extraire des images au format png à partir d'un pdf, vous pouvez le faire avec une commande minimale avec pdftohtml. Il convertit les images pdf en html plus images. Ici vous pouvez trouver un exemple - https://www.youtube.com/watch?v=CG1rf7k3xo8 . Si vous souhaitez extraire de nombreuses images d'un pdf, je vous suggère d'essayer ceci.


1
2017-07-06 15:09