Archief - Data van site scrapen door middel van JQuery

Het archief is een bevroren moment uit een vorige versie van dit forum, met andere regels en andere bazen. Deze posts weerspiegelen op geen enkele manier onze huidige ideeën, waarden of wereldbeelden en zijn op sommige plaatsen gecensureerd wegens ontoelaatbaar. Veel zijn in een andere tijdsgeest gemaakt, al dan niet ironisch - zoals in het ironische subforum Off-Topic - en zouden op dit moment niet meer gepost (mogen) worden. Toch bieden we dit archief nog graag aan als informatiedatabank en naslagwerk. Lees er hier meer over of start een gesprek met anderen.

upriser

Legacy Member
Dag allemaal

Voor school moeten we een eigen dynamische site maken, maar we moeten onze info via jQuery Ajax verkrijgen van een andere site.. Ik kan de paginasource opvragen. Nu weet ik juist niet goed hoe ik bv een artikel van die site moet afhalen..

We moeten dit doen voor school doen maar ze zeggen niet hoe

Kan iemand helpen?

Zero Grav

Legacy Member
Vind het nogal vreemd dat ze u aanzetten tot het scrapen van content op school. Ik zou toch nog eens controleren of dat ze niet gewoon willen dat je ergens een API implementeert op uw site om data in te lezen.

Soit, indien het toch door middel van scraping moet zou ik zelf gewoon gebruikmaken van YQL. Even zoeken naar de juiste XPath en je krijgt de data die je wilt gewoon binnen als XML/JSON, zal veel gemakkelijker zijn dan het allemaal manueel te doen.

Je kan de console op hun site gebruiken om er wat meer voeling mee te krijgen: YQL Console. Doe gewoon een JSONP request naar de juiste url (onderaan de pagina de REST url kopiëren) en ge zijt vertrokken.

Indien je geen XPath kan/wil schrijven zijn er wel extensies te vinden voor de verschillende browsers die deze voor je kunnen genereren bij het klikken op een element.

dJeez

Legacy Member
Zero Grav zei:
Vind het nogal vreemd dat ze u aanzetten tot het scrapen van content op school. Ik zou toch nog eens controleren of dat ze niet gewoon willen dat je ergens een API implementeert op uw site om data in te lezen.
Dat lijkt mij inderdaad ook nogal vreemd, of heeft je leerkracht nog nooit van plagiaat gehoord? Over welke site gaat het precies?

Jerre Muesli

Legacy Member
Wat ne zever, plagiaat. Alsof de techniek illegaal is. Er zijn websites genoeg die zoekertjes en dergelijke kopiëren en nadien aanbieden om het te laten staan voor een prijsje...

adrianhates

Legacy Member
Jerre Muesli zei:
Wat ne zever, plagiaat. Alsof de techniek illegaal is. Er zijn websites genoeg die zoekertjes en dergelijke kopiëren en nadien aanbieden om het te laten staan voor een prijsje...

de techniek is wel "illegaal". Of het door wet bepaald is laat ik even in het midden. Als een site in zijn robots.txt aangeeft dat de access door robots verboden is mag je in principe de site niet scrapen. Wat jij hier aanhaalt van zoekertjes kopieren is anderzijds wel degelijk illegaal, omdat je hier de algemene wetten van de copyright overtreedt.

Wij hebben in het eindwerk ook moeten scrapen, maar dit om een database te vullen met testdata om de applicatie degelijk te kunnen testen. Scrapen zou ik dan ook weer niet doen met Javascript maar eerder met perl of python.

Jerre Muesli

Legacy Member
Ik heb nochtans een collega die gelijkaardig voorbeeld als project had bij een klant.. zo illegaal zal dat dan wel niet zijn. Ik vermoed dat elke website wel zijn eigen copyright regels kan hebben?

ultddave

Legacy Member
Ik treed adrianhates even bij; Het is bij wet verboden om substantiële delen uit een database (gegevensset) te gebruiken zonder toestemming. Voorbeeld; je mag niet de uurregeling van de treinen van de NBMS op je eigen site weergeven. Ook mag je die tabellen zelfs niet kopieren in chatberichten of iets dergelijks (belachelijk I know). Ook is het verboden om geregeld niet-substantiele delen van de gegevensset te te gebruiken als dat uiteindelijk leidt tot het gebruik van een substantieel deel. (of simpel gezegd, je mag ook niet elke minuut 1 rij uit de tabel halen om de eerste wet te omzeilen.)

Artikel 2.

1. De producent van een databank heeft het uitsluitende recht om toestemming te verlenen voor de volgende handelingen:

a. het opvragen of hergebruiken van het geheel of een in kwalitatief of kwantitatief opzicht substantieel deel van de inhoud van de databank;

b. het herhaald en systematisch opvragen of hergebruiken van in kwalitatief of in kwantitatief opzicht niet-substantiële delen van de inhoud van een databank, voorzover dit in strijd is met de normale exploitatie van die databank of ongerechtvaardigde schade toebrengt aan de rechtmatige belangen van de producent van de databank.

De rest van de wetten kan je hier vinden:
wetten.nl - Wet- en regelgeving - Databankenwet - BWBR0010591

Vind het nogal vreemd dat ze u aanzetten tot het scrapen van content op school. Ik zou toch nog eens controleren of dat ze niet gewoon willen dat je ergens een API implementeert op uw site om data in te lezen.
Inderdaad, dat denk ik ook. ;)

EDIT: Uiteraard kan je het wel expliciet toelaten dat andere mensen die data mogen gebruiken (wat misschien bij het voorbeeld van Jerre Muesli het geval was.) Maar normaal gezien mag het niet ;).

upriser

Legacy Member
we mogen eenders welke site nemen, en het is niet voor publicatie he.. het is bijwijze van oefening

adrianhates

Legacy Member
upriser zei:
we mogen eenders welke site nemen, en het is niet voor publicatie he.. het is bijwijze van oefening

dat is het punt niet.. Als er copyright op data staat mag je dat op geen enkele manier kopieren, om geen enkele reden, zonder expliciete toestemming van de eigenaar v/d data :)

Nu, het is allemaal wel zo nauw niet. Als het bijwijzige is van oefening zet dan ook bvb een check in je scripts op de robots.txt van éénder welke site die je scraped ;)

haiQt

Legacy Member
upriser zei:
we mogen eenders welke site nemen, en het is niet voor publicatie he.. het is bijwijze van oefening

Als je eender welke site mag nemen als bron, waarom kies je er dan niet één die al een API heeft in plaats van een site te gaan scrapen? Lijkt me een onnodige omweg...
Het archief is een bevroren moment uit een vorige versie van dit forum, met andere regels en andere bazen. Deze posts weerspiegelen op geen enkele manier onze huidige ideeën, waarden of wereldbeelden en zijn op sommige plaatsen gecensureerd wegens ontoelaatbaar. Veel zijn in een andere tijdsgeest gemaakt, al dan niet ironisch - zoals in het ironische subforum Off-Topic - en zouden op dit moment niet meer gepost (mogen) worden. Toch bieden we dit archief nog graag aan als informatiedatabank en naslagwerk. Lees er hier meer over of start een gesprek met anderen.
Terug
Bovenaan