Det är inte svårt att läsa PDF -filer i Java med hjälp av bibliotek som är lätt tillgängliga . Läsa PDF -filer kan du skriva Java -program som kan bearbeta texten i dessa filer . Ett alternativ för att läsa PDF- filer är gratis, open- source PDFBox bibliotek tillgängliga från Apache . Eclipse Java- plattform för utveckling gör detta arbete lättare och hanterar biblioteken kommer du att ladda ner . Du måste vara bekant med Java programmering till att använda dessa Java bibliotek
1 .
Hämta Java JDK från Sun 's hemsida . Detta är en körbar fil som du kan installera på ditt system genom att köra den . Versioner finns för Windows, Mac och Linux . Klicka på den röda knappen "Download" . Spara en fil som heter " jdk-6uxx -windows-xxx. exe " när du ombeds . Spara filen och dubbelklicka på den för att starta installationsprogrammet Java .
2 .
Ladda Eclipse utveckling systemet och packa upp den till en toppnivåkatalogen . Välj " Eclipse IDE för Java -utvecklare . "Detta kommer att starta nedladdningen av " eclipse-java-Galileo-SR2-win32. zip " Dubbelklicka på filen för att packa upp den efter nedladdningen är klar Välj . "C : . " location rotkatalogen att packa Eclipse <. br >
3 .
Börja Eclipse genom att dubbelklicka på " eclipse. exe "i katalogen du just skapade genom att packa upp solförmörkelsen zip-filen . I Eclipse systemet, skapa ett projekt som heter " PrintPdf . " Välj " File " sedan " Nytt "och sedan " Java -projekt. " Ange projektets namn " PrintPdf " i dialogrutan som visas . Se till att knappen är markerad som säger " Skapa olika mappar för källa och klass filer. " Klicka på " Finish . "
4 .
Skapa en " lib " mappen i din " PrintPdf " projekt . Högerklicka på " PrintPdf " projekt och välj "Nytt " och sedan " Mapp ". Skriv namnet " lib " och klicka på " Finish. "
5 .
Hämta Apache " PDFBox. jar " från Apache webbplatsen och kopiera den i lib-katalogen du just skapat . På samma webbsida , ladda ner " fontbox-nn. jar " fil och " jempbox-nn . jar " -fil . I varje enskilt fall , när du klickar på den jar-filen kommer det att ta dig till en sida där du kan välja ett av flera servrar som kan ge den här filen . Pick var en av dem och varje jar-filen ska sparas. Kopiera varje jar filen i lib-katalogen du skapade bara .
6 .
Hämta Apache log4j. jar paketet på samma sätt och kopiera log4j. jar filen till katalogen . Apache PDFBox biblioteket använder denna Apache loggar bibliotek , så den här filen måste vara närvarande .
7 .
Ladda Apache Commons Discovery paketet som en zip-fil . Dubbelklicka på zip- filen , välj " commons-discovery-nn. jar " och extrahera den i lib-katalogen .
8 .
i Eclipse , klicka på " lib " katalog och tryck på " F5 ". Kontrollera att alla jar-filer du har lagt till visas .
9 .
Högerklicka på PrintPDF projektet och välj " Egenskaper ". Välj " Java Bygg Path " och välj "Bibliotek " fliken . Klicka på "Lägg burkar "och gå till lib-katalogen du just har skapat , och lägg till " commons -logging-nn. jar " fontbox-nn. jar "," jempbox-nn . burk "," log4j-nn. jar "och " pdfbox-nn. jar . "Klicka på "OK ".
1 .
Högerklicka på " src " mappen på din " PrintPDF " projekt och välj "Nytt "och " paket. " Skapa ett paket med ett meningsfullt namn . Till exempel namn paketet " com. pdf. util . " Klicka på " Finish . "
2 .
Högerklicka på paketets namn du just skapade och välj "Nytt " och sedan " klass . "Skapa en klass som heter " PDFTextParser . " Be Glöm inte att klicka på kryssrutan märkt " public static void main . . . " så att systemet kommer att skapa en " main " -metoden
3
Redigera . "main " -metoden i " PDFTextParser " klass att innehålla följande kod :
public static void main ( String args []){
PDFTextParser pdf=new PDFTextParser ( " data /javaPDF. pdf " ) ;
//skriv ut resultat
System . out. println ( pdf. getParsedText ());
}
Observera att den fil du vill skriva ut är preciseras i konstruktorn till PDFTextParser ( " data /JavaPDF. pdf " ) . Det kunde lika gärna vara en Kommandoradsargumentet :
PDFTextParser pdf=new PDFTextParser ( argv [0 ] ) ;
eller väljas från ett grafiskt gränssnitt .
Det skapar en instans av PDFTextParser klassen , och sedan kallar sitt " getParsedText " metoden .
4 .
Infoga följande kod nedanför den översta klassen raden " public class PDFTextParser " som har skapats för dig
privat PDFParser parser=null ; .
//Extrahera text från PDF Dokument
offentliga PDFTextParser ( String filename) {
Fil=ny fil ( filnamn) ; ( ! file. isFile () )
om {
System. err. println ( " File " och filnamn + " finns inte . " ) ; }
//Ställ in instans av PDF- parser
try {
parser=new PDFParser ( ny FileInputStream ( fil )) ; }
catch ( IOException e ) {
System . err. println ( "Kunde inte öppna PDF -tolken. " + e. getMessage ());
} }
//-------------- -----------------
public String getParsedText () {
PDDocument pdDoc=null ;
COSDocument cosDoc=null ;
String parsedText=null ; ,
try {
PDFTextStripper pdfStripper=new PDFTextStripper () ;
parser. parse () ;
cosDoc=parser. getDocument () ;
pdDoc=new PDDocument ( cosDoc ) .
//få lista av alla sidor
Lista
//Observera att du kan skriva ut alla sidor du vill
//genom att välja olika värden på i början och slutet sida
pdfStripper . setStartPage (1) , //1-baserat
int längd=list. size ();//totala antalet sidor
pdfStripper. setEndPage (längd ) , //sista sidan
//få texten för sidor som du valt
parsedText=pdfStripper. getText ( pdDoc ) ,
} catch ( IOException e) {
System. err
println ( " . Ett undantag inträffade i tolkning av PDF- dokumentet . "
+ e. getMessage ());
} { äntligen
try {
if ( cosDoc !=null )
cosDoc. close () ;
om ( pdDoc=null ! )
pdDoc. close () ; }
catch ( IOException e) {
e. printStackTrace () ;
} }
återvända parsedText ;
}
5 .
Kör programmet . Högerklicka på PDFTextParser klassen och klicka på " Kör som " och sedan på " Java -programmet. " Programmet bör springa och skriva ut texten innehållet i PDF- filen du angav i din kod .
1 .
Skapa en konfigurationsfil att undertrycka Java loggningssystem log4j felmeddelande skapas när den inte kan hitta en konfigurationsfil när den startar . Högerklicka på " src " mappen i PrintPDF projektet och välj "Nytt " och sedan " Fil . " Döp filen till " log4j. properties " Eclipse visas en tom skärm för den nya filen .
2 .
Klistra in följande rader i den tomma skärmen representerar " log4j. properties " fil .
# Ställ in rot logger nivå för att felsöka och dess enda appender till A1 .
log4j. rootLogger=Varna , A1
# A1 är satt att vara en ConsoleAppender .
log4j. appender. A1=org. apache. log4j. ConsoleAppender
# A1 använder PatternLayout .
log4j. appender. A1. layout=org. apache. log4j. PatternLayout
log4j . appender. A1. layout. ConversionPattern=%-4R [ % d] %-5p % c % x-. % m % n
3
Spara " log4j. properties " fil . Förekomsten av denna fil i den översta nivån " src " katalogen kommer att kväva den log4j start meddelandet och alla triviala loggning meddelanden . Det log4j Systemet kommer att skriva ut endast de faktiska fel .
Previous:nothing Next:Hur konvertera till UTF- 8 med hjälp av Visual Basic