Archief - Scraping?

Het archief is een bevroren moment uit een vorige versie van dit forum, met andere regels en andere bazen. Deze posts weerspiegelen op geen enkele manier onze huidige ideeën, waarden of wereldbeelden en zijn op sommige plaatsen gecensureerd wegens ontoelaatbaar. Veel zijn in een andere tijdsgeest gemaakt, al dan niet ironisch - zoals in het ironische subforum Off-Topic - en zouden op dit moment niet meer gepost (mogen) worden. Toch bieden we dit archief nog graag aan als informatiedatabank en naslagwerk. Lees er hier meer over of start een gesprek met anderen.

LsV

Legacy Member
Ik heb even een vrij complexe casus waar ik zelf weinig raad mee weet - misschien kan
iemand hier helpen!

Ik zou graag een website/dienst uitbouwen die gebruik maakt van informatie van op een andere site, en die die informatie consolideert om daar dan op basis van verschillende parameters conclusies uit te trekken zoals hoe lang dingen op de site blijven staan, en waarom dan. Nu, ik ben zelf jurist en heb wel een basis IP, dus ik zie de potentiële problemen er wel van, maar wil wel even aftoetsen. Het zou voor commercieel gebruik zijn, is wel relevante info.

Het is eventjes vaag uitgelegd, waarvoor mijn excuses, maar ik wil ook niet teveel prijsgeven ;)

Mauw

Legacy Member
Wel ik heb in het verleden ooit zoiets gebouwd voor immo te verzamelen op 1 site (dus immoweb, immovlan, zimmo, era etc etc ..) afschuimen en hier een database uit bouwen die de dubbels eruit haalt maar veel websites hebben door dat je ze aan het scrapen bent en blokkeren de toegang tot je IP. Er staat op zimmo zelfs dat ze tegen je procederen als je ze scraped heb ik over't laatst ontdekt.

Langs de andere kant.. informatie staat online dus volgens mij hebben ze geen been om op te staan

Mauw

Legacy Member
Wel ik heb in het verleden ooit zoiets gebouwd voor immo te verzamelen op 1 site (dus immoweb, immovlan, zimmo, era etc etc ..) afschuimen en hier een database uit bouwen die de dubbels eruit haalt maar veel websites hebben door dat je ze aan het scrapen bent en blokkeren de toegang tot je IP. Er staat op zimmo zelfs dat ze tegen je procederen als je ze scraped heb ik over't laatst ontdekt.

Langs de andere kant.. informatie staat online dus volgens mij hebben ze geen been om op te staan

Five-seveN

Legacy Member
Mauw zei:
Wel ik heb in het verleden ooit zoiets gebouwd voor immo te verzamelen op 1 site (dus immoweb, immovlan, zimmo, era etc etc ..) afschuimen en hier een database uit bouwen die de dubbels eruit haalt maar veel websites hebben door dat je ze aan het scrapen bent en blokkeren de toegang tot je IP. Er staat op zimmo zelfs dat ze tegen je procederen als je ze scraped heb ik over't laatst ontdekt.

Langs de andere kant.. informatie staat online dus volgens mij hebben ze geen been om op te staan
Voor privé doeleinden mag alles. Als je die data daarentegen opnieuw publiceert op een publieke site dan kan men u misschien wel iets maken en terecht. De gebruikers van zimmo hebben de rechten van die foto’s overgedragen via de algemene voorwaarden, maar als jij dat steelt en reupload dan heb je dus geen rechten daartoe. My 2cents.

Was dit trouwens lang geleden dat je dit gedaan had? Ik heb ooit ook sites gescrabed maar dat was puur XML parsing uit de html. Vanaf die sites overschakelden op meer JavaScript was het voor mij onbegonnen werk en kon alle code de vuilbak in. Ik spreek van 10j geleden dan.

Tegenwoordig is er dan ook nog recaptcha enzo, ik zou denken dat dit bijna niet meer te doen is. maybe.

LsV

Legacy Member
Five-seveN zei:
Voor privé doeleinden mag alles. Als je die data daarentegen opnieuw publiceert op een publieke site dan kan men u misschien wel iets maken en terecht. De gebruikers van zimmo hebben de rechten van die foto’s overgedragen via de algemene voorwaarden, maar als jij dat steelt en reupload dan heb je dus geen rechten daartoe. My 2cents.

Was dit trouwens lang geleden dat je dit gedaan had? Ik heb ooit ook sites gescrabed maar dat was puur XML parsing uit de html. Vanaf die sites overschakelden op meer JavaScript was het voor mij onbegonnen werk en kon alle code de vuilbak in. Ik spreek van 10j geleden dan.

Tegenwoordig is er dan ook nog recaptcha enzo, ik zou denken dat dit bijna niet meer te doen is. maybe.

In mijn geval zou die data wel niet opnieuw gepubliceerd worden - wel gebruikt, en het resultaat ervan zou wel gepubliceerd worden, maar de data zou bij mij blijven!

cege

Legacy Member
Veel succes. Is nu niet exact rocket science om scrapers te blokkeren heden ten dage...

Tenzij je je requests van verschillende IPs kunt sturen of je requests kunt van verschillende browsers kunt laten komen, zal je snel geblokkeerd worden.



En zoals gezegd, als je die data voor jezelf verzamelt, kan er niet veel gebeuren. Worst-case blokkeren ze je omdat je er als een bot of DDOSer of scraper uitziet en is het wachten op een IP refresh voor je opnieuw kan beginnen.

Five-seveN

Legacy Member
Als je veel last zou krijgen van IP blocks kan je wel via tor gaan denk ik.
Even getest en immoweb werkt toch al via tor. 9lives ook.

Mauw

Legacy Member
Five-seveN zei:
Was dit trouwens lang geleden dat je dit gedaan had? Ik heb ooit ook sites gescrabed maar dat was puur XML parsing uit de html. Vanaf die sites overschakelden op meer JavaScript was het voor mij onbegonnen werk en kon alle code de vuilbak in. Ik spreek van 10j geleden dan.

Rond 2015 was dat. Maar voor mijn toepassing had je niet veel nodig he ;) alles wat in tekst op het scherm komt staat ook ergens in de file die je fetched. Het sop was de kool alleszinds niet waard :D

Syter

Legacy Member
Five-seveN zei:
Voor privé doeleinden mag alles. Als je die data daarentegen opnieuw publiceert op een publieke site dan kan men u misschien wel iets maken en terecht. De gebruikers van zimmo hebben de rechten van die foto’s overgedragen via de algemene voorwaarden, maar als jij dat steelt en reupload dan heb je dus geen rechten daartoe. My 2cents.

Was dit trouwens lang geleden dat je dit gedaan had? Ik heb ooit ook sites gescrabed maar dat was puur XML parsing uit de html. Vanaf die sites overschakelden op meer JavaScript was het voor mij onbegonnen werk en kon alle code de vuilbak in. Ik spreek van 10j geleden dan.

Tegenwoordig is er dan ook nog recaptcha enzo, ik zou denken dat dit bijna niet meer te doen is. maybe.


Nochtans redelijk eenvoudig als je een beetje Python kent.

yaris

Legacy Member
Syter zei:
Nochtans redelijk eenvoudig als je een beetje Python kent.

Idd redelijk veel gedaan een tijd geleden maar ik werd toch op ip geblokkeerd na een tijd :-).
Op mijn werk zitten we in oorlog met andere bedrijven die bij ons komen scrapen en wij ook bij die andere bedrijven :). Wel leuk om het de andere partij zo moeilijk mogelijk te maken :-).

Five-seveN

Legacy Member
Syter zei:
Nochtans redelijk eenvoudig als je een beetje Python kent.

Misschien heb je gelijk maar misschien is het toch moeilijker dan je denkt.

Bijvoorbeeld ik scrapte goksites om te zien wat de bookmakers op wedstrijden hadden gezet.
Dat begon met een copy-paste van de hele pagina in html, waarna ik dit parste.
Zeer simpel. Ik downloade zo misschien wel 100GB van unibet per maand.
Voor andere sites deed ik dit met een Control-A, Control-C op bepaalde pagina's.
Ik weet ja enorm amateuristisch.

Nu kan jij me misschien eens zeggen welk "beetje python" de wedstrijden met hun bets hieruit nog kan scrapen?
https://nl-sports.unibet.be/betting/sports/filter/american_football

Als je een "view source" doet komt er helemaal niks op, geen enkel team, geen enkele notering.
Zelfs een control-A heeft geen noteringen op het klembord.
Hoe werkt dat dan?

zarathustra

Legacy Member
Five-seveN zei:
Misschien heb je gelijk maar misschien is het toch moeilijker dan je denkt.

Bijvoorbeeld ik scrapte goksites om te zien wat de bookmakers op wedstrijden hadden gezet.
Dat begon met een copy-paste van de hele pagina in html, waarna ik dit parste.
Zeer simpel. Ik downloade zo misschien wel 100GB van unibet per maand.
Voor andere sites deed ik dit met een Control-A, Control-C op bepaalde pagina's.
Ik weet ja enorm amateuristisch.

Nu kan jij me misschien eens zeggen welk "beetje python" de wedstrijden met hun bets hieruit nog kan scrapen?
https://nl-sports.unibet.be/betting/sports/filter/american_football

Als je een "view source" doet komt er helemaal niks op, geen enkel team, geen enkele notering.
Zelfs een control-A heeft geen noteringen op het klembord.
Hoe werkt dat dan?

Het is nu jaren terug dat ik daar naar gekeken heb, maar je kan in python met (denk ik Selenium) dat gewoon een browser doen spelen en als ik met chrome in de source van die page kijk vind ik toch dingen als:

<div data-touch-feedback="true" class="sc-AxhCb iXUpHL">Kansas City Chiefs</div>
<div data-touch-feedback="true" class="sc-AxheI bTLIxK">1.20</div>

dus als je iets afstemt op die pagina kan je dat er waarschijnlijk wel uithalen, hoe flexibel dat zal zijn en hoe lang het zal werken is iets anders.

een soort van OCR of image processing is waarschijnlijk simpeler

Squidward

Legacy Member
img.php
[/URL][/IMG]

Five-seveN

Legacy Member
zarathustra zei:
Het is nu jaren terug dat ik daar naar gekeken heb, maar je kan in python met (denk ik Selenium) dat gewoon een browser doen spelen en als ik met chrome in de source van die page kijk vind ik toch dingen als:

<div data-touch-feedback="true" class="sc-AxhCb iXUpHL">Kansas City Chiefs</div>
<div data-touch-feedback="true" class="sc-AxheI bTLIxK">1.20</div>

dus als je iets afstemt op die pagina kan je dat er waarschijnlijk wel uithalen, hoe flexibel dat zal zijn en hoe lang het zal werken is iets anders.

een soort van OCR of image processing is waarschijnlijk simpeler

Vreemd dat vond ik zelf niet. En vind ik ook niet als ik chrome view page/frame source druk.
view-source:https://nl-sports.unibet.be/betting/sports/filter/american_football
image processing nog simpeler?

CyBe®-DuDe

Legacy Member
Five-seveN zei:
Misschien heb je gelijk maar misschien is het toch moeilijker dan je denkt.

Bijvoorbeeld ik scrapte goksites om te zien wat de bookmakers op wedstrijden hadden gezet.
Dat begon met een copy-paste van de hele pagina in html, waarna ik dit parste.
Zeer simpel. Ik downloade zo misschien wel 100GB van unibet per maand.
Voor andere sites deed ik dit met een Control-A, Control-C op bepaalde pagina's.
Ik weet ja enorm amateuristisch.

Nu kan jij me misschien eens zeggen welk "beetje python" de wedstrijden met hun bets hieruit nog kan scrapen?
https://nl-sports.unibet.be/betting/sports/filter/american_football

Als je een "view source" doet komt er helemaal niks op, geen enkel team, geen enkele notering.
Zelfs een control-A heeft geen noteringen op het klembord.
Hoe werkt dat dan?
Open de developer tools van je browser en ga naar de network tab. Refresh die page en filter op "json". Alle data zit gewoon gestructureerd in american_football.json.
Of in een command prompt:
curl -X GET "https://eu-offering.kambicdn.org/offering/v2018/ubbe/listView/american_football.json?lang=nl_BE&market=BE&client_id=2&channel_id=1&ncid=1593461402&useCombined=true"
De ncid parameter is de Unix Epoch time maar moet je zelfs niet meegeven.
Het wordt nog beter want je kan ook het volgende doen:
curl -X GET "https://eu-offering.kambicdn.org/offering/v2018/ubbe/listView/handball,ice_hockey,motorsports,netball,american_football.json?lang=nl_BE&market=BE&client_id=2&channel_id=1&ncid=1593461402&useCombined=true"
Je kan dus een lijst krijgen van alle events van verschillende sporten. Iets wat ze zelf toepassen op https://nl-sports.unibet.be/betting/sports/home

Five-seveN

Legacy Member
CyBe®-DuDe zei:
Open de developer tools van je browser en ga naar de network tab. Refresh die page en filter op "json". Alle data zit gewoon gestructureerd in american_football.json.
Of in een command prompt:

De ncid parameter is de Unix Epoch time maar moet je zelfs niet meegeven.
Het wordt nog beter want je kan ook het volgende doen:

Je kan dus een lijst krijgen van alle events van verschillende sporten. Iets wat ze zelf toepassen op https://nl-sports.unibet.be/betting/sports/home

Ik krijg prompt zin om weer te gaan scrapen :)

Bedankt :thumbsup:

Syter

Legacy Member
zarathustra zei:
Het is nu jaren terug dat ik daar naar gekeken heb, maar je kan in python met (denk ik Selenium) dat gewoon een browser doen spelen en als ik met chrome in de source van die page kijk vind ik toch dingen als:

<div data-touch-feedback="true" class="sc-AxhCb iXUpHL">Kansas City Chiefs</div>
<div data-touch-feedback="true" class="sc-AxheI bTLIxK">1.20</div>

dus als je iets afstemt op die pagina kan je dat er waarschijnlijk wel uithalen, hoe flexibel dat zal zijn en hoe lang het zal werken is iets anders.

een soort van OCR of image processing is waarschijnlijk simpeler
Inderdaad, met Selenium en Beautiful Soup is dit enorm simpel. Ik deed dit met bepaalde aandelen die ik in een rapport liet toekomen op mijn e-mailadres op vaste tijdstippen.

Verstuurd vanaf mijn FIG-LX1 met Tapatalk
Het archief is een bevroren moment uit een vorige versie van dit forum, met andere regels en andere bazen. Deze posts weerspiegelen op geen enkele manier onze huidige ideeën, waarden of wereldbeelden en zijn op sommige plaatsen gecensureerd wegens ontoelaatbaar. Veel zijn in een andere tijdsgeest gemaakt, al dan niet ironisch - zoals in het ironische subforum Off-Topic - en zouden op dit moment niet meer gepost (mogen) worden. Toch bieden we dit archief nog graag aan als informatiedatabank en naslagwerk. Lees er hier meer over of start een gesprek met anderen.
Terug
Bovenaan