Dator > hur man skapar en webb spindel

  • hur man skapar en webb spindel


  • En web spindel är ett datorprogram som laddar ner en webbsida , och sedan följer alla länkar på den sidan och hämtar dem också. Webbspindlar används för att lagra webbsidor för offline läsning , eller för lagring av webbsidor i databaser som skall användas av en sökmotor . Skapa en webbsida spindel är en utmanande uppgift , lämplig för en college- nivå programmering klass . Dessa instruktioner förutsätter att du har gedigen erfarenhet av programmering , men ingen kännedom om spindel arkitektur . De steg lägga ut en mycket specifik arkitektur för att skriva en Web spindel i ditt valda språk .

    Du behöver :
    webbläsare som svarar på programmatiska kommandon
    . Programmeringsspråk med läs-skriv diskåtkomst och funktioner databasen .


    1 .
    Initiera ditt program med den ursprungliga webbsida du vill hämta . Lägg till URL för denna sida till en ny databas tabell med webbadresser.
    2 .
    Skicka ett kommando till webbläsaren instruktion att hämta denna webbsida , och spara den på en disk . Flytta databas pekaren ett steg framåt förbi den URL som du just laddat hem, som nu kommer till slutet av tabellen .
    3 .
    Läs webbsida i programmet , och tolka det för länkar till fler webbsidor . Detta görs vanligtvis genom att söka efter textsträngen " http://" och fånga texten mellan strängen och ett avslutande tecken ( t. ex. " ", " . " eller ">"). Lägg dessa länkar till URL databastabell , databasen pekaren bör finnas kvar på toppen av denna nya lista
    4
    Testa poster i databasen tabellen unikhet , och ta bort alla webbadresser som . förekommer mer än en gång .
    5 .
    Om du vill använda en URL -filter ( till exempel för att förhindra nedladdning sidor från sajter på olika domäner ) , gäller det nu till webbadressen databastabell och ta bort alla webbadresser som du inte vill ladda ner .

    6 .
    Inrätta en programmatisk loop så att din spindel återgår till steg 2 ovan. Detta kommer att rekursivt hämta alla webbadresser din spindel möten . Ta bort dubbletter webbadresser garanterar att spindeln ordentligt upphör när den når den sista unik webbadress .

    tips och varningar


  • Om du använder ett Unix -operativsystem , kontrollera Unix dokumentation ( eller " man-sidor " ) för curl och wget . Dessa kommandon innehåller många inbyggda spidering alternativ , vilket kraftigt kan minska programmering tid och komplexitet .

Previous:Vilka är fördelarna med Java uppgradera ? Next:hur du redigerar ett HTML-text med javascript





Relaterade artiklar


  • hur man söker poster i VB6
  • hur man fixar en låg bildfrekvens på en Dell XPS 410 dator
  • IBM X60 specifikationer
  • hur man kan ändra teckensnitt för att terminalen på en Eee PC
  • Hur berätta om en processor x64 i Windows
  • hur man skriver ett Java-program som konverterar centimeter till inches & vice versa
  • lista över AMD Opteron processorer
  • Network Attached Storage protokoll
  • hur man bränner i en ny moderkortet
  • hur du ställer in IP-adressen på Xerox WorkCentre Pro 423