Archief - Data van site scrapen door middel van JQuery

upriser · 27 mrt 2013

Dag allemaal

Voor school moeten we een eigen dynamische site maken, maar we moeten onze info via jQuery Ajax verkrijgen van een andere site.. Ik kan de paginasource opvragen. Nu weet ik juist niet goed hoe ik bv een artikel van die site moet afhalen..

We moeten dit doen voor school doen maar ze zeggen niet hoe

Kan iemand helpen?

Hourences · 27 mrt 2013

Moved naar webdev.

injected · 27 mrt 2013

Retrieving Data Using AJAX + jQuery | CodingCereal

Deze link is misschien wel handig. In welke taal ga je je site maken ASP, PHP,... ?

Zero Grav · 28 mrt 2013

Vind het nogal vreemd dat ze u aanzetten tot het scrapen van content op school. Ik zou toch nog eens controleren of dat ze niet gewoon willen dat je ergens een API implementeert op uw site om data in te lezen.

Soit, indien het toch door middel van scraping moet zou ik zelf gewoon gebruikmaken van YQL. Even zoeken naar de juiste XPath en je krijgt de data die je wilt gewoon binnen als XML/JSON, zal veel gemakkelijker zijn dan het allemaal manueel te doen.

Je kan de console op hun site gebruiken om er wat meer voeling mee te krijgen: YQL Console. Doe gewoon een JSONP request naar de juiste url (onderaan de pagina de REST url kopiëren) en ge zijt vertrokken.

Indien je geen XPath kan/wil schrijven zijn er wel extensies te vinden voor de verschillende browsers die deze voor je kunnen genereren bij het klikken op een element.

dJeez · 29 mrt 2013

Zero Grav zei:
Vind het nogal vreemd dat ze u aanzetten tot het scrapen van content op school. Ik zou toch nog eens controleren of dat ze niet gewoon willen dat je ergens een API implementeert op uw site om data in te lezen.

Dat lijkt mij inderdaad ook nogal vreemd, of heeft je leerkracht nog nooit van plagiaat gehoord? Over welke site gaat het precies?

Jerre Muesli · 29 mrt 2013

Wat ne zever, plagiaat. Alsof de techniek illegaal is. Er zijn websites genoeg die zoekertjes en dergelijke kopiëren en nadien aanbieden om het te laten staan voor een prijsje...

adrianhates · 29 mrt 2013

Jerre Muesli zei:
Wat ne zever, plagiaat. Alsof de techniek illegaal is. Er zijn websites genoeg die zoekertjes en dergelijke kopiëren en nadien aanbieden om het te laten staan voor een prijsje...

de techniek is wel "illegaal". Of het door wet bepaald is laat ik even in het midden. Als een site in zijn robots.txt aangeeft dat de access door robots verboden is mag je in principe de site niet scrapen. Wat jij hier aanhaalt van zoekertjes kopieren is anderzijds wel degelijk illegaal, omdat je hier de algemene wetten van de copyright overtreedt.

Wij hebben in het eindwerk ook moeten scrapen, maar dit om een database te vullen met testdata om de applicatie degelijk te kunnen testen. Scrapen zou ik dan ook weer niet doen met Javascript maar eerder met perl of python.

Jerre Muesli · 29 mrt 2013

Ik heb nochtans een collega die gelijkaardig voorbeeld als project had bij een klant.. zo illegaal zal dat dan wel niet zijn. Ik vermoed dat elke website wel zijn eigen copyright regels kan hebben?

ultddave · 29 mrt 2013

Ik treed adrianhates even bij; Het is bij wet verboden om substantiële delen uit een database (gegevensset) te gebruiken zonder toestemming. Voorbeeld; je mag niet de uurregeling van de treinen van de NBMS op je eigen site weergeven. Ook mag je die tabellen zelfs niet kopieren in chatberichten of iets dergelijks (belachelijk I know). Ook is het verboden om geregeld niet-substantiele delen van de gegevensset te te gebruiken als dat uiteindelijk leidt tot het gebruik van een substantieel deel. (of simpel gezegd, je mag ook niet elke minuut 1 rij uit de tabel halen om de eerste wet te omzeilen.)

Artikel 2.

1. De producent van een databank heeft het uitsluitende recht om toestemming te verlenen voor de volgende handelingen:

a. het opvragen of hergebruiken van het geheel of een in kwalitatief of kwantitatief opzicht substantieel deel van de inhoud van de databank;

b. het herhaald en systematisch opvragen of hergebruiken van in kwalitatief of in kwantitatief opzicht niet-substantiële delen van de inhoud van een databank, voorzover dit in strijd is met de normale exploitatie van die databank of ongerechtvaardigde schade toebrengt aan de rechtmatige belangen van de producent van de databank.

De rest van de wetten kan je hier vinden:
wetten.nl - Wet- en regelgeving - Databankenwet - BWBR0010591

Vind het nogal vreemd dat ze u aanzetten tot het scrapen van content op school. Ik zou toch nog eens controleren of dat ze niet gewoon willen dat je ergens een API implementeert op uw site om data in te lezen.

Inderdaad, dat denk ik ook.

EDIT: Uiteraard kan je het wel expliciet toelaten dat andere mensen die data mogen gebruiken (wat misschien bij het voorbeeld van Jerre Muesli het geval was.) Maar normaal gezien mag het niet

.

upriser · 31 mrt 2013

we mogen eenders welke site nemen, en het is niet voor publicatie he.. het is bijwijze van oefening

adrianhates · 31 mrt 2013

upriser zei:
we mogen eenders welke site nemen, en het is niet voor publicatie he.. het is bijwijze van oefening

dat is het punt niet.. Als er copyright op data staat mag je dat op geen enkele manier kopieren, om geen enkele reden, zonder expliciete toestemming van de eigenaar v/d data

Nu, het is allemaal wel zo nauw niet. Als het bijwijzige is van oefening zet dan ook bvb een check in je scripts op de robots.txt van éénder welke site die je scraped

haiQt · 4 apr 2013

upriser zei:
we mogen eenders welke site nemen, en het is niet voor publicatie he.. het is bijwijze van oefening

Als je eender welke site mag nemen als bron, waarom kies je er dan niet één die al een API heeft in plaats van een site te gaan scrapen? Lijkt me een onnodige omweg...

Archief - Data van site scrapen door middel van JQuery

upriser

Legacy Member

Hourences

Legacy Member

injected

Legacy Member

Zero Grav

Legacy Member

dJeez

Legacy Member

Jerre Muesli

Legacy Member

adrianhates

Legacy Member

Jerre Muesli

Legacy Member

ultddave

Legacy Member

upriser

Legacy Member

adrianhates

Legacy Member

haiQt

Legacy Member