Dator > hur man läser pdf- fil i java

  • hur man läser pdf- fil i java


  • Det är inte svårt att läsa PDF -filer i Java med hjälp av bibliotek som är lätt tillgängliga . Läsa PDF -filer kan du skriva Java -program som kan bearbeta texten i dessa filer . Ett alternativ för att läsa PDF- filer är gratis, open- source PDFBox bibliotek tillgängliga från Apache . Eclipse Java- plattform för utveckling gör detta arbete lättare och hanterar biblioteken kommer du att ladda ner . Du måste vara bekant med Java programmering till att använda dessa Java bibliotek

    Samla Behövs Bibliotek


    1 .
    Hämta Java JDK från Sun 's hemsida . Detta är en körbar fil som du kan installera på ditt system genom att köra den . Versioner finns för Windows, Mac och Linux . Klicka på den röda knappen "Download" . Spara en fil som heter " jdk-6uxx -windows-xxx. exe " när du ombeds . Spara filen och dubbelklicka på den för att starta installationsprogrammet Java .
    2 .
    Ladda Eclipse utveckling systemet och packa upp den till en toppnivåkatalogen . Välj " Eclipse IDE för Java -utvecklare . "Detta kommer att starta nedladdningen av " eclipse-java-Galileo-SR2-win32. zip " Dubbelklicka på filen för att packa upp den efter nedladdningen är klar Välj . "C : . " location rotkatalogen att packa Eclipse <. br >
    3 .
    Börja Eclipse genom att dubbelklicka på " eclipse. exe "i katalogen du just skapade genom att packa upp solförmörkelsen zip-filen . I Eclipse systemet, skapa ett projekt som heter " PrintPdf . " Välj " File " sedan " Nytt "och sedan " Java -projekt. " Ange projektets namn " PrintPdf " i dialogrutan som visas . Se till att knappen är markerad som säger " Skapa olika mappar för källa och klass filer. " Klicka på " Finish . "
    4 .
    Skapa en " lib " mappen i din " PrintPdf " projekt . Högerklicka på " PrintPdf " projekt och välj "Nytt " och sedan " Mapp ". Skriv namnet " lib " och klicka på " Finish. "
    5 .
    Hämta Apache " PDFBox. jar " från Apache webbplatsen och kopiera den i lib-katalogen du just skapat . På samma webbsida , ladda ner " fontbox-nn. jar " fil och " jempbox-nn . jar " -fil . I varje enskilt fall , när du klickar på den jar-filen kommer det att ta dig till en sida där du kan välja ett av flera servrar som kan ge den här filen . Pick var en av dem och varje jar-filen ska sparas. Kopiera varje jar filen i lib-katalogen du skapade bara .
    6 .
    Hämta Apache log4j. jar paketet på samma sätt och kopiera log4j. jar filen till katalogen . Apache PDFBox biblioteket använder denna Apache loggar bibliotek , så den här filen måste vara närvarande .
    7 .
    Ladda Apache Commons Discovery paketet som en zip-fil . Dubbelklicka på zip- filen , välj " commons-discovery-nn. jar " och extrahera den i lib-katalogen .
    8 .
    i Eclipse , klicka på " lib " katalog och tryck på " F5 ". Kontrollera att alla jar-filer du har lagt till visas .
    9 .
    Högerklicka på PrintPDF projektet och välj " Egenskaper ". Välj " Java Bygg Path " och välj "Bibliotek " fliken . Klicka på "Lägg burkar "och gå till lib-katalogen du just har skapat , och lägg till " commons -logging-nn. jar " fontbox-nn. jar "," jempbox-nn . burk "," log4j-nn. jar "och " pdfbox-nn. jar . "Klicka på "OK ".
     

    skriva koden till Läsa PDF-filer


    1 .

    Högerklicka på " src " mappen på din " PrintPDF " projekt och välj "Nytt "och " paket. " Skapa ett paket med ett meningsfullt namn . Till exempel namn paketet " com. pdf. util . " Klicka på " Finish . "
    2 .
    Högerklicka på paketets namn du just skapade och välj "Nytt " och sedan " klass . "Skapa en klass som heter " PDFTextParser . " Be Glöm inte att klicka på kryssrutan märkt " public static void main . . . " så att systemet kommer att skapa en " main " -metoden
    3
    Redigera . "main " -metoden i " PDFTextParser " klass att innehålla följande kod :

    public static void main ( String args []){
    PDFTextParser pdf=new PDFTextParser ( " data /javaPDF. pdf " ) ;
    //skriv ut resultat
    System . out. println ( pdf. getParsedText ());
    }

    Observera att den fil du vill skriva ut är preciseras i konstruktorn till PDFTextParser ( " data /JavaPDF. pdf " ) . Det kunde lika gärna vara en Kommandoradsargumentet :

    PDFTextParser pdf=new PDFTextParser ( argv [0 ] ) ;

    eller väljas från ett grafiskt gränssnitt .

    Det skapar en instans av PDFTextParser klassen , och sedan kallar sitt " getParsedText " metoden .
    4 .
    Infoga följande kod nedanför den översta klassen raden " public class PDFTextParser " som har skapats för dig

    privat PDFParser parser=null ; .

    //Extrahera text från PDF Dokument
    offentliga PDFTextParser ( String filename) {
    Fil=ny fil ( filnamn) ; ( ! file. isFile () )
    om {
    System. err. println ( " File " och filnamn + " finns inte . " ) ; }

    //Ställ in instans av PDF- parser
    try {
    parser=new PDFParser ( ny FileInputStream ( fil )) ; }
    catch ( IOException e ) {
    System . err. println ( "Kunde inte öppna PDF -tolken. " + e. getMessage ());
    } }

    //-------------- -----------------
    public String getParsedText () {
    PDDocument pdDoc=null ;
    COSDocument cosDoc=null ;
    String parsedText=null ; ,

    try {
    PDFTextStripper pdfStripper=new PDFTextStripper () ;
    parser. parse () ;
    cosDoc=parser. getDocument () ;
    pdDoc=new PDDocument ( cosDoc ) .

    //få lista av alla sidor
    Lista list=pdDoc. getDocumentCatalog ( ) getAllPages () ;

    //Observera att du kan skriva ut alla sidor du vill
    //genom att välja olika värden på i början och slutet sida
    pdfStripper . setStartPage (1) , //1-baserat
    int längd=list. size ();//totala antalet sidor
    pdfStripper. setEndPage (längd ) , //sista sidan

    //få texten för sidor som du valt
    parsedText=pdfStripper. getText ( pdDoc ) ,
    } catch ( IOException e) {
    System. err
    println ( " . Ett undantag inträffade i tolkning av PDF- dokumentet . "
    + e. getMessage ());
    } { äntligen
    try {
    if ( cosDoc !=null )
    cosDoc. close () ;
    om ( pdDoc=null ! )
    pdDoc. close () ; }
    catch ( IOException e) {
    e. printStackTrace () ;
    } }

    återvända parsedText ;
    }
    5 .
    Kör programmet . Högerklicka på PDFTextParser klassen och klicka på " Kör som " och sedan på " Java -programmet. " Programmet bör springa och skriva ut texten innehållet i PDF- filen du angav i din kod .
     

    bekämpande log4j Startup Felmeddelande


    1 .
    Skapa en konfigurationsfil att undertrycka Java loggningssystem log4j felmeddelande skapas när den inte kan hitta en konfigurationsfil när den startar . Högerklicka på " src " mappen i PrintPDF projektet och välj "Nytt " och sedan " Fil . " Döp filen till " log4j. properties " Eclipse visas en tom skärm för den nya filen .
    2 .
    Klistra in följande rader i den tomma skärmen representerar " log4j. properties " fil .

    # Ställ in rot logger nivå för att felsöka och dess enda appender till A1 .
    log4j. rootLogger=Varna , A1

    # A1 är satt att vara en ConsoleAppender .
    log4j. appender. A1=org. apache. log4j. ConsoleAppender

    # A1 använder PatternLayout .
    log4j. appender. A1. layout=org. apache. log4j. PatternLayout
    log4j . appender. A1. layout. ConversionPattern=%-4R [ % d] %-5p % c % x-. % m % n
    3
    Spara " log4j. properties " fil . Förekomsten av denna fil i den översta nivån " src " katalogen kommer att kväva den log4j start meddelandet och alla triviala loggning meddelanden . Det log4j Systemet kommer att skriva ut endast de faktiska fel .
     

    tips och varningar


     

    • Det finns också ett antal kommersiella paket som du kan använda för att extrahera text från PDF- filer , men de är inte billiga .
    8 9 5 7 3


Previous:nothing Next:Hur konvertera till UTF- 8 med hjälp av Visual Basic





Relaterade artiklar


  • hur man lär sig t - sql online
  • java script vs PHP
  • hur man skapar ett flödesschema som räknar siffror från 1 till 10
  • hur man startar telnet från Visual Basic
  • Visual Basic 6 projekt för nybörjare
  • hur man skapar en XSD från en befintlig XML-
  • hur man skapar xls med javascript
  • hur du vill visa en apostrof i VBScript
  • Visual Basic tutorial --- hur man skriver koder
  • hur man använder ett fall uttalande i SQL