Archief - Scraping?

LsV · 25 jun 2020

Ik heb even een vrij complexe casus waar ik zelf weinig raad mee weet - misschien kan
iemand hier helpen!

Ik zou graag een website/dienst uitbouwen die gebruik maakt van informatie van op een andere site, en die die informatie consolideert om daar dan op basis van verschillende parameters conclusies uit te trekken zoals hoe lang dingen op de site blijven staan, en waarom dan. Nu, ik ben zelf jurist en heb wel een basis IP, dus ik zie de potentiële problemen er wel van, maar wil wel even aftoetsen. Het zou voor commercieel gebruik zijn, is wel relevante info.

Het is eventjes vaag uitgelegd, waarvoor mijn excuses, maar ik wil ook niet teveel prijsgeven

Mauw · 25 jun 2020

Wel ik heb in het verleden ooit zoiets gebouwd voor immo te verzamelen op 1 site (dus immoweb, immovlan, zimmo, era etc etc ..) afschuimen en hier een database uit bouwen die de dubbels eruit haalt maar veel websites hebben door dat je ze aan het scrapen bent en blokkeren de toegang tot je IP. Er staat op zimmo zelfs dat ze tegen je procederen als je ze scraped heb ik over't laatst ontdekt.

Langs de andere kant.. informatie staat online dus volgens mij hebben ze geen been om op te staan

Mauw · 25 jun 2020

Wel ik heb in het verleden ooit zoiets gebouwd voor immo te verzamelen op 1 site (dus immoweb, immovlan, zimmo, era etc etc ..) afschuimen en hier een database uit bouwen die de dubbels eruit haalt maar veel websites hebben door dat je ze aan het scrapen bent en blokkeren de toegang tot je IP. Er staat op zimmo zelfs dat ze tegen je procederen als je ze scraped heb ik over't laatst ontdekt.

Langs de andere kant.. informatie staat online dus volgens mij hebben ze geen been om op te staan

Five-seveN · 25 jun 2020

Mauw zei:
Wel ik heb in het verleden ooit zoiets gebouwd voor immo te verzamelen op 1 site (dus immoweb, immovlan, zimmo, era etc etc ..) afschuimen en hier een database uit bouwen die de dubbels eruit haalt maar veel websites hebben door dat je ze aan het scrapen bent en blokkeren de toegang tot je IP. Er staat op zimmo zelfs dat ze tegen je procederen als je ze scraped heb ik over't laatst ontdekt.

Langs de andere kant.. informatie staat online dus volgens mij hebben ze geen been om op te staan

Voor privé doeleinden mag alles. Als je die data daarentegen opnieuw publiceert op een publieke site dan kan men u misschien wel iets maken en terecht. De gebruikers van zimmo hebben de rechten van die foto’s overgedragen via de algemene voorwaarden, maar als jij dat steelt en reupload dan heb je dus geen rechten daartoe. My 2cents.

Was dit trouwens lang geleden dat je dit gedaan had? Ik heb ooit ook sites gescrabed maar dat was puur XML parsing uit de html. Vanaf die sites overschakelden op meer JavaScript was het voor mij onbegonnen werk en kon alle code de vuilbak in. Ik spreek van 10j geleden dan.

Tegenwoordig is er dan ook nog recaptcha enzo, ik zou denken dat dit bijna niet meer te doen is. maybe.

LsV · 25 jun 2020

Five-seveN zei:
Voor privé doeleinden mag alles. Als je die data daarentegen opnieuw publiceert op een publieke site dan kan men u misschien wel iets maken en terecht. De gebruikers van zimmo hebben de rechten van die foto’s overgedragen via de algemene voorwaarden, maar als jij dat steelt en reupload dan heb je dus geen rechten daartoe. My 2cents.

Was dit trouwens lang geleden dat je dit gedaan had? Ik heb ooit ook sites gescrabed maar dat was puur XML parsing uit de html. Vanaf die sites overschakelden op meer JavaScript was het voor mij onbegonnen werk en kon alle code de vuilbak in. Ik spreek van 10j geleden dan.

Tegenwoordig is er dan ook nog recaptcha enzo, ik zou denken dat dit bijna niet meer te doen is. maybe.

In mijn geval zou die data wel niet opnieuw gepubliceerd worden - wel gebruikt, en het resultaat ervan zou wel gepubliceerd worden, maar de data zou bij mij blijven!

cege · 25 jun 2020

Veel succes. Is nu niet exact rocket science om scrapers te blokkeren heden ten dage...

Tenzij je je requests van verschillende IPs kunt sturen of je requests kunt van verschillende browsers kunt laten komen, zal je snel geblokkeerd worden.

En zoals gezegd, als je die data voor jezelf verzamelt, kan er niet veel gebeuren. Worst-case blokkeren ze je omdat je er als een bot of DDOSer of scraper uitziet en is het wachten op een IP refresh voor je opnieuw kan beginnen.

Five-seveN · 26 jun 2020

Als je veel last zou krijgen van IP blocks kan je wel via tor gaan denk ik.
Even getest en immoweb werkt toch al via tor. 9lives ook.

Mauw · 27 jun 2020

Five-seveN zei:
Was dit trouwens lang geleden dat je dit gedaan had? Ik heb ooit ook sites gescrabed maar dat was puur XML parsing uit de html. Vanaf die sites overschakelden op meer JavaScript was het voor mij onbegonnen werk en kon alle code de vuilbak in. Ik spreek van 10j geleden dan.

Rond 2015 was dat. Maar voor mijn toepassing had je niet veel nodig he

alles wat in tekst op het scherm komt staat ook ergens in de file die je fetched. Het sop was de kool alleszinds niet waard

Syter · 27 jun 2020

Five-seveN zei:
Voor privé doeleinden mag alles. Als je die data daarentegen opnieuw publiceert op een publieke site dan kan men u misschien wel iets maken en terecht. De gebruikers van zimmo hebben de rechten van die foto’s overgedragen via de algemene voorwaarden, maar als jij dat steelt en reupload dan heb je dus geen rechten daartoe. My 2cents.

Was dit trouwens lang geleden dat je dit gedaan had? Ik heb ooit ook sites gescrabed maar dat was puur XML parsing uit de html. Vanaf die sites overschakelden op meer JavaScript was het voor mij onbegonnen werk en kon alle code de vuilbak in. Ik spreek van 10j geleden dan.

Tegenwoordig is er dan ook nog recaptcha enzo, ik zou denken dat dit bijna niet meer te doen is. maybe.

Nochtans redelijk eenvoudig als je een beetje Python kent.

yaris · 28 jun 2020

Syter zei:
Nochtans redelijk eenvoudig als je een beetje Python kent.

Idd redelijk veel gedaan een tijd geleden maar ik werd toch op ip geblokkeerd na een tijd

.
Op mijn werk zitten we in oorlog met andere bedrijven die bij ons komen scrapen en wij ook bij die andere bedrijven

. Wel leuk om het de andere partij zo moeilijk mogelijk te maken

.

Five-seveN · 29 jun 2020

Syter zei:
Nochtans redelijk eenvoudig als je een beetje Python kent.

Misschien heb je gelijk maar misschien is het toch moeilijker dan je denkt.

Bijvoorbeeld ik scrapte goksites om te zien wat de bookmakers op wedstrijden hadden gezet.
Dat begon met een copy-paste van de hele pagina in html, waarna ik dit parste.
Zeer simpel. Ik downloade zo misschien wel 100GB van unibet per maand.
Voor andere sites deed ik dit met een Control-A, Control-C op bepaalde pagina's.
Ik weet ja enorm amateuristisch.

Nu kan jij me misschien eens zeggen welk "beetje python" de wedstrijden met hun bets hieruit nog kan scrapen?
https://nl-sports.unibet.be/betting/sports/filter/american_football

Als je een "view source" doet komt er helemaal niks op, geen enkel team, geen enkele notering.
Zelfs een control-A heeft geen noteringen op het klembord.
Hoe werkt dat dan?

zarathustra · 29 jun 2020

Five-seveN zei:
Misschien heb je gelijk maar misschien is het toch moeilijker dan je denkt.

Bijvoorbeeld ik scrapte goksites om te zien wat de bookmakers op wedstrijden hadden gezet.
Dat begon met een copy-paste van de hele pagina in html, waarna ik dit parste.
Zeer simpel. Ik downloade zo misschien wel 100GB van unibet per maand.
Voor andere sites deed ik dit met een Control-A, Control-C op bepaalde pagina's.
Ik weet ja enorm amateuristisch.

Nu kan jij me misschien eens zeggen welk "beetje python" de wedstrijden met hun bets hieruit nog kan scrapen?
https://nl-sports.unibet.be/betting/sports/filter/american_football

Als je een "view source" doet komt er helemaal niks op, geen enkel team, geen enkele notering.
Zelfs een control-A heeft geen noteringen op het klembord.
Hoe werkt dat dan?

Het is nu jaren terug dat ik daar naar gekeken heb, maar je kan in python met (denk ik Selenium) dat gewoon een browser doen spelen en als ik met chrome in de source van die page kijk vind ik toch dingen als:

<div data-touch-feedback="true" class="sc-AxhCb iXUpHL">Kansas City Chiefs</div>
<div data-touch-feedback="true" class="sc-AxheI bTLIxK">1.20</div>

dus als je iets afstemt op die pagina kan je dat er waarschijnlijk wel uithalen, hoe flexibel dat zal zijn en hoe lang het zal werken is iets anders.

een soort van OCR of image processing is waarschijnlijk simpeler

Squidward · 29 jun 2020

[/URL][/IMG]

Five-seveN · 29 jun 2020

zarathustra zei:
Het is nu jaren terug dat ik daar naar gekeken heb, maar je kan in python met (denk ik Selenium) dat gewoon een browser doen spelen en als ik met chrome in de source van die page kijk vind ik toch dingen als:

<div data-touch-feedback="true" class="sc-AxhCb iXUpHL">Kansas City Chiefs</div>
<div data-touch-feedback="true" class="sc-AxheI bTLIxK">1.20</div>

dus als je iets afstemt op die pagina kan je dat er waarschijnlijk wel uithalen, hoe flexibel dat zal zijn en hoe lang het zal werken is iets anders.

een soort van OCR of image processing is waarschijnlijk simpeler

Vreemd dat vond ik zelf niet. En vind ik ook niet als ik chrome view page/frame source druk.
view-source:https://nl-sports.unibet.be/betting/sports/filter/american_football
image processing nog simpeler?

zarathustra · 29 jun 2020

Five-seveN zei:
Vreemd dat vond ik zelf niet. En vind ik ook niet als ik chrome view page/frame source druk.
view-source:https://nl-sports.unibet.be/betting/sports/filter/american_football
image processing nog simpeler?

rightclick op zo een groen ding en doe inspect

CyBe®-DuDe · 29 jun 2020

Five-seveN zei:
Misschien heb je gelijk maar misschien is het toch moeilijker dan je denkt.

Bijvoorbeeld ik scrapte goksites om te zien wat de bookmakers op wedstrijden hadden gezet.
Dat begon met een copy-paste van de hele pagina in html, waarna ik dit parste.
Zeer simpel. Ik downloade zo misschien wel 100GB van unibet per maand.
Voor andere sites deed ik dit met een Control-A, Control-C op bepaalde pagina's.
Ik weet ja enorm amateuristisch.

Nu kan jij me misschien eens zeggen welk "beetje python" de wedstrijden met hun bets hieruit nog kan scrapen?
https://nl-sports.unibet.be/betting/sports/filter/american_football

Als je een "view source" doet komt er helemaal niks op, geen enkel team, geen enkele notering.
Zelfs een control-A heeft geen noteringen op het klembord.
Hoe werkt dat dan?

Open de developer tools van je browser en ga naar de network tab. Refresh die page en filter op "json". Alle data zit gewoon gestructureerd in american_football.json.
Of in een command prompt:

curl -X GET "https://eu-offering.kambicdn.org/offering/v2018/ubbe/listView/american_football.json?lang=nl_BE&market=BE&client_id=2&channel_id=1&ncid=1593461402&useCombined=true"

De ncid parameter is de Unix Epoch time maar moet je zelfs niet meegeven.
Het wordt nog beter want je kan ook het volgende doen:

curl -X GET "https://eu-offering.kambicdn.org/offering/v2018/ubbe/listView/handball,ice_hockey,motorsports,netball,american_football.json?lang=nl_BE&market=BE&client_id=2&channel_id=1&ncid=1593461402&useCombined=true"

Je kan dus een lijst krijgen van alle events van verschillende sporten. Iets wat ze zelf toepassen op https://nl-sports.unibet.be/betting/sports/home

Five-seveN · 29 jun 2020

CyBe®-DuDe zei:
Open de developer tools van je browser en ga naar de network tab. Refresh die page en filter op "json". Alle data zit gewoon gestructureerd in american_football.json.
Of in een command prompt:

De ncid parameter is de Unix Epoch time maar moet je zelfs niet meegeven.
Het wordt nog beter want je kan ook het volgende doen:

Je kan dus een lijst krijgen van alle events van verschillende sporten. Iets wat ze zelf toepassen op https://nl-sports.unibet.be/betting/sports/home

Ik krijg prompt zin om weer te gaan scrapen

Bedankt :thumbsup:

yaris · 29 jun 2020

https://www.freecodecamp.org/news/how-to-scrape-websites-with-python-and-beautifulsoup-5946935d93fe/

Syter · 30 jun 2020

zarathustra zei:
Het is nu jaren terug dat ik daar naar gekeken heb, maar je kan in python met (denk ik Selenium) dat gewoon een browser doen spelen en als ik met chrome in de source van die page kijk vind ik toch dingen als:

<div data-touch-feedback="true" class="sc-AxhCb iXUpHL">Kansas City Chiefs</div>
<div data-touch-feedback="true" class="sc-AxheI bTLIxK">1.20</div>

dus als je iets afstemt op die pagina kan je dat er waarschijnlijk wel uithalen, hoe flexibel dat zal zijn en hoe lang het zal werken is iets anders.

een soort van OCR of image processing is waarschijnlijk simpeler

Inderdaad, met Selenium en Beautiful Soup is dit enorm simpel. Ik deed dit met bepaalde aandelen die ik in een rapport liet toekomen op mijn e-mailadres op vaste tijdstippen.

Verstuurd vanaf mijn FIG-LX1 met Tapatalk

Oldskooler · 1 jul 2020

https://chrome.google.com/webstore/detail/web-scraper/jnhgnonknehpejjnehehllkliplmbmhn

Archief - Scraping?

LsV

Legacy Member

Mauw

Legacy Member

Mauw

Legacy Member

Five-seveN

Legacy Member

LsV

Legacy Member

cege

Legacy Member

Five-seveN

Legacy Member

Mauw

Legacy Member

Syter

Legacy Member

yaris

Legacy Member

Five-seveN

Legacy Member

zarathustra

Legacy Member

Squidward

Legacy Member

Five-seveN

Legacy Member

zarathustra

Legacy Member

CyBe®-DuDe

Legacy Member

Five-seveN

Legacy Member

yaris

Legacy Member

Syter

Legacy Member

Oldskooler

Legacy Member