Archief - Google zoekresultaten - crawler voor indexatie woorden

Het archief is een bevroren moment uit een vorige versie van dit forum, met andere regels en andere bazen. Deze posts weerspiegelen op geen enkele manier onze huidige ideeën, waarden of wereldbeelden en zijn op sommige plaatsen gecensureerd wegens ontoelaatbaar. Veel zijn in een andere tijdsgeest gemaakt, al dan niet ironisch - zoals in het ironische subforum Off-Topic - en zouden op dit moment niet meer gepost (mogen) worden. Toch bieden we dit archief nog graag aan als informatiedatabank en naslagwerk. Lees er hier meer over of start een gesprek met anderen.

Thizke

Legacy Member
Goedemiddag allemaal,

ik vroeg mij af of het simpel is om een Google search result crawler te schrijven, en of iemand een paar relevante (Perl/Java, Perl lijkt me handiger) tutorials weet.

Het volgende is dus de bedoeling:
(Perl)scriptje waar ge uw keywords om te zoeken ingeeft, alsook de 'woorden' die je zoekt. Als je deze 'woorden' tegenkomt op de gecrawlde website, wordt deze geïndexeerd.

Voorbeeld:
keywords: karnavalswinkel + contact
'woorden': info@ , contact@, @[domeinnaam]

gevormde array: (output)
[email protected]
[email protected]
[email protected]
[email protected]

Alvast bedankt!

Cycloon

Legacy Member
Kan je het eens wat specifieker uitleggen? Voor zover ik begrijp moet je gewoon de google pagina opvragen ( http://www.google.be/#hl=nl&q=de+zoekwoorden ) met de juiste parameters voor je zoekterm. Hiervoor zal je genoeg tutorials vinden. Daarna moet je enkel nog zoeken in de verkregen data waarbij je 1 van de vele reguliere expressie technieken van perl kan gebruiken.

Messias.

Legacy Member
Ik begrijp het zoals Cycloon, maar toch één raad als je html-resultaten zou willen parsen: blijf weg van reguliere expressies en ga meteen voor een goeie, fout-tolerante xml- of html-parser. Voor Java kan ik je niet helpen, maar voor Perl moet je maar eens rond kijken op CPAN.
Het archief is een bevroren moment uit een vorige versie van dit forum, met andere regels en andere bazen. Deze posts weerspiegelen op geen enkele manier onze huidige ideeën, waarden of wereldbeelden en zijn op sommige plaatsen gecensureerd wegens ontoelaatbaar. Veel zijn in een andere tijdsgeest gemaakt, al dan niet ironisch - zoals in het ironische subforum Off-Topic - en zouden op dit moment niet meer gepost (mogen) worden. Toch bieden we dit archief nog graag aan als informatiedatabank en naslagwerk. Lees er hier meer over of start een gesprek met anderen.
Terug
Bovenaan