


Comment travailler avec les fichiers PDF en Java à l'aide d'Apache PDFBox?
Jul 10, 2025 pm 12:45 PMApache PDFBox est un outil courant pour traiter les fichiers PDF en Java, en prenant en charge la création, la lecture, la fusion et l'ajout de filigranes. 1. Créez PDF: utilisez PDDocument et PDPageContentStream pour ajouter des pages et écrire des contenus; 2. Lire le contenu: extraire le texte via PDFTextStripper, mais le fichier numérisé ne peut pas être reconnu; 3. Fermer des fichiers: utilisez PDFMergerutility pour ajouter plusieurs fichiers source et fusionner les sorties; 4. Ajouter un filigrane: créer des couches transparentes après le chargement du document et dessiner du texte de filigrane ou des images sur la page spécifiée. Assurez-vous de fermer l'objet de document une fois l'opération terminée pour éviter les fuites de mémoire.
Le traitement des fichiers PDF est une exigence commune en Java, en particulier lors de la génération de rapports, de la manipulation de documents ou de l'extraction de contenu. Apache PDFBox est une bibliothèque puissante et open source qui peut être utilisée pour créer, manipuler et extraire le contenu PDF. Voici quelques méthodes de mise en ?uvre des opérations courantes.

Créer un nouveau fichier PDF
Si vous devez générer un PDF à partir de zéro, PDFBox fournit une prise en charge de l'API de base.
-
Ajoutez d'abord des dépendances (exemple maven):
<dépendance> <proupId> org.apache.pdfbox </rombandid> <ArtefactId> PDFBOX </ ArfactId> <version> 2.0.27 </ version> </Dependance>
étapes de base pour créer et écrire du contenu:
- Créez un objet de document à l'aide de
PDDocument
. - Ajoutez une page et écrivez du texte ou des graphiques via
PDPageContentStream
. - Enfin, n'oubliez pas de fermer le flux et les documents pour éviter la fuite des ressources.
Exemple d'extrait de code:

PDDocument document = new pdDocument (); Pdpage page = new pdpage (); document.addpage (page); try (pdpageContentsTream Contentsstream = new PdpageContentsTream (document, page)) { ContentStream.begIntext (); ContentStream.setfont (pdtype1font.helvetica_bold, 12); ContentStream.NewLineatOffset (50, 700); ContentStream.showText ("Hello, pdfbox!"); ContentStream.endText (); } document.save ("output.pdf"); document.close ();
Lire le contenu d'un fichier PDF existant
L'extraction du contenu texte dans PDF est une autre tache courante, comme faire une recherche de mots clés ou une extraction de données.
Cette tache peut être facilement accomplie à l'aide de la classe PDFTextStripper
:
PDDocument document = pdDocument.load (nouveau fichier ("input.pdf")); PdftextStripper stripper = new pdftextStripper (); String text = stripper.getText (document); System.out.println (texte); document.close ();
Remarque: Certains PDF se présentent sous forme de numérisation ou d'images. Ces fichiers ne peuvent pas extraire directement du texte et nécessitent une assistance technique OCR.
Fusionner plusieurs fichiers PDF
Parfois, vous devez synthétiser plusieurs PDF en un seul, PDFMergerUtility
de PDFBOX peut le faire.
L'utilisation est à peu près la suivante:
- Créez
PDFMergerUtility
. - Ajoutez plusieurs sources d'entrée.
- Définissez la cible de sortie.
- Appelez la méthode
mergeDocuments()
à fusionner.
Exemple:
PdfMergerUtility Merger = new PdfMergerUtility (); Merger.addsource ("file1.pdf"); Merger.Addsource ("File2.pdf"); Merger.setDestinationFileName ("Merged_Output.pdf"); Merge.Mergedocuments (null);
Ajouter une page de filigrane ou de signature
L'ajout d'un filigrane ou la fixation d'une page de signature au PDF peut être réalisé en recouvrant un nouveau calque.
Idées de base:
- Chargez le document d'origine.
- Créez une nouvelle couche transparente.
- Dessinez du texte ou de l'image de filigrane sur ce calque.
- Recouvrez le calque sur chaque page ou sur une page spécifiée.
Cette partie est un peu plus compliquée et implique l'utilisation de PDPageContentStream
et PDImageXObject
. Si vous ajoutez simplement des filigranes de texte, vous pouvez ajouter du texte translucide en haut de chaque page de la même manière pour créer un PDF.
Fondamentalement, ces opérations communes. PDFBox a de nombreuses fonctions, mais ce qui précède est les scénarios les plus courants rencontrés. Lorsque je l'utilise pour la première fois, je peux sentir que le nom de la classe est un peu déroutant, mais je me familiariserai après l'avoir essayé plusieurs fois. Il convient de noter que n'oubliez pas de fermer l'objet de document après l'opération, sinon il entra?nera facilement une fuite de mémoire.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undress AI Tool
Images de déshabillage gratuites

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Article chaud

Outils chauds

Bloc-notes++7.3.1
éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Javanio est un nouvel IOAPI introduit par Java 1.4. 1) s'adresse aux tampons et aux canaux, 2) contient des composants de tampon, de canal et de sélecteur, 3) prend en charge le mode non bloquant et 4) gère les connexions simultanées plus efficacement que l'OI traditionnel. Ses avantages se reflètent dans: 1) IO non bloquant les réductions de la surcharge du thread, 2) le tampon améliore l'efficacité de transmission des données, 3) le sélecteur réalise le multiplexage et 4) la cartographie de la mémoire accélère la lecture et l'écriture de la lecture de fichiers. Remarque Lorsque vous utilisez: 1) le fonctionnement FLIP / clair du tampon est facile à confondre, 2) les données incomplètes doivent être traitées manuellement sans blocage, 3) l'enregistrement du sélecteur doit être annulé à temps, 4) Nio ne convient pas à tous les scénarios.

HashMap implémente le stockage de paires de valeurs clés via des tables de hachage en Java, et son noyau réside dans les emplacements de données de positionnement rapidement. 1. Utilisez d'abord la méthode HashCode () de la clé pour générer une valeur de hachage et la convertir en un index de tableau via les opérations de bit; 2. Différents objets peuvent générer la même valeur de hachage, entra?nant des conflits. à l'heure actuelle, le n?ud est monté sous la forme d'une liste liée. Après JDK8, la liste liée est trop longue (longueur par défaut 8) et elle sera convertie en arbre rouge et noir pour améliorer l'efficacité; 3. Lorsque vous utilisez une classe personnalisée comme clé, les méthodes equals () et hashcode () doivent être réécrites; 4. Hashmap élargit dynamiquement la capacité. Lorsque le nombre d'éléments dépasse la capacité et se multiplie par le facteur de charge (par défaut 0,75), se développez et remaniez; 5. Hashmap n'est pas en file et concu doit être utilisé dans multithread

Le modèle de conception Singleton en Java garantit qu'une classe n'a qu'une seule instance et fournit un point d'accès global via des constructeurs privés et des méthodes statiques, ce qui convient au contr?le de l'accès aux ressources partagées. Les méthodes de mise en ?uvre incluent: 1. Chargement paresseux, c'est-à-dire que l'instance n'est créée que lorsque la première demande est demandée, ce qui convient aux situations où la consommation de ressources est élevée et pas nécessairement requise; 2. Traitement à filetage, garantissant qu'une seule instance est créée dans un environnement multi-thread par des méthodes de synchronisation ou le verrouillage à double vérification et la réduction de l'impact des performances; 3. Le chargement affamé, qui initialise directement l'instance pendant le chargement des cours, convient aux objets ou scénarios légers qui peuvent être initialisés à l'avance; 4. La mise en ?uvre de l'énumération, en utilisant l'énumération Java pour soutenir naturellement la sérialisation, la sécurité des filetages et prévenir les attaques réfléchissantes, est une méthode concise et fiable recommandée. Différentes méthodes de mise en ?uvre peuvent être sélectionnées en fonction des besoins spécifiques

Facultatif peut clairement exprimer les intentions et réduire le bruit du code pour les jugements nuls. 1. Facultatif. Par exemple, lors de la prise de valeurs des cartes, Orelse peut être utilisée pour fournir des valeurs par défaut, afin que la logique soit plus claire et concise; 2. Utilisez des cartes d'appels de cha?ne pour atteindre les valeurs imbriquées pour éviter en toute sécurité le NPE, et terminer automatiquement si un lien est nul et renvoie la valeur par défaut; 3. Le filtre peut être utilisé pour le filtrage conditionnel, et les opérations ultérieures ne continueront à être effectuées que si les conditions sont remplies, sinon elle sautera directement à Orelse, qui convient au jugement commercial léger; 4. Il n'est pas recommandé de surutiliser facultatif, tels que des types de base ou une logique simple, ce qui augmentera la complexité, et certains scénarios reviendront directement à NU.

Pour faire face aux problèmes de codage des personnages en Java, la clé est de spécifier clairement le codage utilisé à chaque étape. 1. Spécifiez toujours le codage lors de la lecture et de l'écriture de texte, utilisez InputStreamReader et OutputStreamWriter et transmettez un jeu de caractères explicite pour éviter de s'appuyer sur le codage par défaut du système. 2. Assurez-vous que les deux extrémités sont cohérentes lors du traitement des cha?nes sur la limite du réseau, définissez l'en-tête de type contenu correct et spécifiez explicitement le codage avec la bibliothèque. 3. Utilisez String.getBytes () et Newstring (octet []) avec prudence, et spécifiez toujours manuellement StandardCharsets.Utf_8 pour éviter la corruption des données causée par les différences de plate-forme. En bref, par

La cha?ne est immuable, StringBuilder est mutable et non-thread-safe, StringBuffer est mutable et file. 1. Une fois le contenu de la cha?ne créé ne peut pas être modifié, il convient à une petite quantité d'épissage; 2. StringBuilder convient à l'épissage fréquent de threads uniques et a des performances élevées; 3. StringBuffer convient aux scénarios partagés multi-thread, mais a une performance légèrement inférieure; 4. Remarquemment, définir la capacité initiale et éviter d'utiliser l'épissage de cha?ne dans des boucles peut améliorer les performances.

La solution de contournement principale pour la rencontre de Java.io.NotSerializableException est de s'assurer que toutes les classes qui doivent être sérialisées implémentent l'interface sérialisable et de vérifier le support de sérialisation des objets imbriqués. 1. Ajouter des ouvrages ImplementSerialisables à la classe principale; 2. Assurez-vous que les classes correspondantes de champs personnalisées de la classe implémentent également sérialisables; 3. Utilisez transitoire pour marquer les champs qui n'ont pas besoin d'être sérialisés; 4. Vérifiez les types non sérialisés dans les collections ou les objets imbriqués; 5. Vérifiez quelle classe n'implémente pas l'interface; 6. Considérez la conception de remplacement pour les classes qui ne peuvent pas être modifiées, telles que la sauvegarde des données clés ou l'utilisation de structures intermédiaires sérialisables; 7. Envisagez de modifier

La programmation Javasocket est la base de la communication réseau, et l'échange de données entre les clients et les serveurs est réalisé via Socket. 1. Le socket en Java est divisé en la classe de socket utilisée par le client et la classe SERVERSOCKET utilisée par le serveur; 2. Lors de la rédaction d'un programme de socket, vous devez d'abord démarrer le port d'écoute du serveur, puis lancer la connexion par le client; 3. Le processus de communication comprend l'établissement de connexion, la lecture et l'écriture des données et la fermeture du flux; 4. Les précautions incluent l'évitement des conflits de port, la configuration correcte des adresses IP, la fermeture raisonnable des ressources et la prise en charge de plusieurs clients. La ma?trise peut réaliser des fonctions de communication réseau de base.
