Webscrapping

Soler

Active member
Dag iedereen

Voor ons bedrijf moeten we enkele webshops monitoren en opvolging. Het gemakkelijkst is om dit tweewekelijkse aan te vullen in een Excel. Webscrapping lijkt mij hier handig. Zijn er mensen met ervaring die een bepaalde app/saas oplossing gebruiken. Liefst low-code.
 
Dag iedereen

Voor ons bedrijf moeten we enkele webshops monitoren en opvolging. Het gemakkelijkst is om dit tweewekelijkse aan te vullen in een Excel. Webscrapping lijkt mij hier handig. Zijn er mensen met ervaring die een bepaalde app/saas oplossing gebruiken. Liefst low-code.
Browse.ai of kadoa. Met browse.ai lukt het me vrij eenvoudig al voor enkele concurrenten online offerings te automatiseren. Wel vrij snel een paying abo nodig
 
Dag iedereen

Voor ons bedrijf moeten we enkele webshops monitoren en opvolging. Het gemakkelijkst is om dit tweewekelijkse aan te vullen in een Excel. Webscrapping lijkt mij hier handig. Zijn er mensen met ervaring die een bepaalde app/saas oplossing gebruiken. Liefst low-code.
Zelf schrijven vanuit ClaudeAI, en je kan dit elke nacht laten lopen, updaten in Excels/dashboards.

Die data is vrij beschikbaar online, dus daar is volgens mij weinig illegaals aan @SithCloud?
 
Zelf schrijven vanuit ClaudeAI, en je kan dit elke nacht laten lopen, updaten in Excels/dashboards.

Die data is vrij beschikbaar online, dus daar is volgens mij weinig illegaals aan @SithCloud?
Het is niet omdat data vrij beschikbaar is online dat je zomaar alles mag scrapen he. Tuurlijk doen zovelen het. Maar iemand die op een forum komt vragen om aan 'webscrapping' te doen, lijkt me maar weinig goede intenties te hebben.
Maar kudos om het 'monitoring' te willen noemen ;)
 
Het is niet omdat data vrij beschikbaar is online dat je zomaar alles mag scrapen he. Tuurlijk doen zovelen het. Maar iemand die op een forum komt vragen om aan 'webscrapping' te doen, lijkt me maar weinig goede intenties te hebben.
Maar kudos om het 'monitoring' te willen noemen ;)
Het is maar illegaal als je in de website zelf aangeeft dat het niet gescraped mag worden. Ik denk dat dit in security.txt zit als ik het me goed herinner.
 
Het is maar illegaal als je in de website zelf aangeeft dat het niet gescraped mag worden. Ik denk dat dit in security.txt zit als ik het me goed herinner.
De robots.txt . Die makkelijk kan genegeerd worden. Er is ook een ander aspect aan scrapen he en dat is het eenzijdig belasten van websites. Daarom dat een cloudflare en consoorten al die ai-scrapers zo beu zijn omdat ze een overvloed aan data traffiek genereren. en dan is er natuurlijk nog copyrighted stuff etc...
 
yea.. klinkt heel legaal, die activiteit.

Prijzen van concurrenten ophalen vanuit een grote webshopspeler en nagaan of er geen concurrenten zijn bijgekomen.
Illegaliteit alom. Vooraleer je hier grote uitspraken komt verkondigen.

Zelf schrijven vanuit ClaudeAI, en je kan dit elke nacht laten lopen, updaten in Excels/dashboards.

Die data is vrij beschikbaar online, dus daar is volgens mij weinig illegaals aan @SithCloud?
Browse.ai of kadoa. Met browse.ai lukt het me vrij eenvoudig al voor enkele concurrenten online offerings te automatiseren. Wel vrij snel een paying abo nodig


Bedankt voor de tips! Ik zal beide oplossingen eens bekijken.
 

Prijzen van concurrenten ophalen vanuit een grote webshopspeler en nagaan of er geen concurrenten zijn bijgekomen.
Illegaliteit alom. Vooraleer je hier grote uitspraken komt verkondigen.





Bedankt voor de tips! Ik zal beide oplossingen eens bekijken.
Twas precies moeilijk om dat oorspronkelijk zo te verwoorden ;) en zoalsk al zei: velen doen het. Maakt het daarom niet legaal.

Maar het is ok, je bent duidelijk belezen in de materie!
 
De technische uitwerking is op zich zeker het moeilijkste niet. Zelf heb ik iets gelijkaardigs lopen om bv een melding te krijgen als iets in stock komt bij een webwinkel. Gekoppeld aan een melding per SMS via Twilio.

IME grootste obstakels zijn de captcha's die je gaat tegenkomen als je dit gaat beginnen doen. Dan wordt het al een zaak van met residentiele IP's te gaan werken of een betalende dienst in te huren met mensen die die captcha's gaan oplossen voor jou. Want ja die webshops gaan in de regel wel geen API aanbieden om hun prijzen/beschikbaarheid te consulteren.

Of je hebt veel geluk en je targets maken geen gebruik van captcha's of andere vormen van rate limiting. En dan is het vrij eenvoudig uit te werken. Voor mij persoonlijk zou het in Excel steken nog het moeilijkste zijn (toch als ik geen CSV mag gebruiken) want ik heb geen enkele ervaring met Excel en ik ben daar ook zeer blij mee.
 
Bevindt het zich niet in een grijze zone?
Eerder in een gedoogde zone. Tenzij ge op basis van het hierboven vermeldde claude advies een toolke in elkaar ramt dat die mannen hun website constant zit te rammen voor updates, zulde met grote zekerheid geen problemen hebben. Als het echt is om "elke 2 weken een update scriptje te runnen" is de kans heel klein dat ze aan uw deur komen kloppen. Maar er zijn wel degelijk wetten hierrond. Dat maakt het niet legaal. Dat maakt het gewoon dat zo'n brol heel laag op een prioriteitslijst staat, vooral omdat iedereen met ne website op het internet weet dat zo'n zaken gebeuren.
 
yea.. klinkt heel legaal, die activiteit.
Het is niet omdat data vrij beschikbaar is online dat je zomaar alles mag scrapen he.
De robots.txt . Die makkelijk kan genegeerd worden.
en dan is er natuurlijk nog copyrighted stuff
Maakt het daarom niet legaal.
Maar er zijn wel degelijk wetten hierrond.
Kan je die wetten eens geven dat het expliciet illegaal maken?
Er is geen specifieke wet rond bij mijn weten, je hebt wel meerdere aspecten waar je rekening mee moet houden. En daar zijn wel wetten rond die het daarom illegaal kunnen maken, maar dat betekent niet dat het standaard gezien illegaal is.

Om te beginnen heb je het over de robots.txt die geen enkele wettelijke waarde heeft. Dit is ook opgesteld puur als "voluntary compliance".

Dan heb je maar één wettelijk kader opgenoemd, copyrighted stuff, en die klopt al niet. Want voor auteursrechten heb je de uitzondering voor reprografie (intern professioneel gebruik). Dus dat is al niet illegaal als hij het enkel intern gaat gebruiken, zoals hij al aangegeven heeft.
Je moet rekening houden met GDPR, maar afgaand op de context die hij ondertussen al gegeven heeft, is dat geen probleem.
Het enige dat dan nog van toepassing kan zijn is de ToS van de site zelf, maar de kans is klein dat het daar in zal staan. En maakt het dus ook nog altijd niet per definitie illegaal zoals je hier meermaals beweert.
 
Kan je die wetten eens geven dat het expliciet illegaal maken?
Er is geen specifieke wet rond bij mijn weten, je hebt wel meerdere aspecten waar je rekening mee moet houden. En daar zijn wel wetten rond die het daarom illegaal kunnen maken, maar dat betekent niet dat het standaard gezien illegaal is.

Om te beginnen heb je het over de robots.txt die geen enkele wettelijke waarde heeft. Dit is ook opgesteld puur als "voluntary compliance".

Dan heb je maar één wettelijk kader opgenoemd, copyrighted stuff, en die klopt al niet. Want voor auteursrechten heb je de uitzondering voor reprografie (intern professioneel gebruik). Dus dat is al niet illegaal als hij het enkel intern gaat gebruiken, zoals hij al aangegeven heeft.
Je moet rekening houden met GDPR, maar afgaand op de context die hij ondertussen al gegeven heeft, is dat geen probleem.
Het enige dat dan nog van toepassing kan zijn is de ToS van de site zelf, maar de kans is klein dat het daar in zal staan. En maakt het dus ook nog altijd niet per definitie illegaal zoals je hier meermaals beweert.
kzal hier morgen op antwoorden, heb de links ergens somewhere diep in een bookmarks folder steken op mijn desktop (zit niet op de desktop nu). Ik heb nooit expliciet "illegaal" gezegd omdat veel praktijken gewoon gedoogd worden. Als ge elke persoon moet beginnen aanklagen dat uw data misbruikt, dan zijt ge meer bezig met administratie dan uw zaak te runnen. Het zijn oude wetten hoor, something something database recht enzo.

copyright klopt niet in dit geval - waarschijnlijk- was gewoon snel even een antwoord op "het staat toch online dus waarom zoude niet mogen scrapen".

Vreemd dat je zelf er GDPR erbijhaalt. Enfin, misschien niet zo vreemd als je inderdaad het concept scraping en persoonlijke data bijeenneemt, dan ben je inderdaad - misschien - een verwerker :p .

khou me zelf niet zoveel bezig met GRC en wetgeving, maar kheb al wel genoeg gelezen om te weten wanneer iets aan de grens van het behoorlijke raakt ;)
 
"Illegaal" als in parket/strafbaar is het voor zover ik weet niet, tenzij het over copyright-beschermde werken gaat. Ik kan me toch geen enkele strafvervolging inzake voor de geest halen.

Het "slachtoffer" kan u voor de burgerlijke rechtbank dagen als in "inbreuk op TOS" etc, maar in de praktijk moet het wel al erg zijn voor men die stap zet denk ik. Gezien het burgerlijke rechtbank is, zal het dan vooral gaan over vergoeding van "schade" en hoeveel de schade bedraagt. Strafblad komt er daar uiteraard niet aan te pas.

Men zal m.i. vooral gebruik maken van verdediging - dus met captcha's, rate limiting of volledig blokkeren van datacenter IP's. Als die maatregelen op grote schaal omzeild worden (en dat kan uiteraard wel) dan pas zie ik dat eventueel rechtbank worden. Maar voor enkele keren per week (of zelfs per dag) niet. Het is dan op zich ook moeilijk om het zwart/wit te bewijzen.
 
Ik heb nooit expliciet "illegaal" gezegd omdat veel praktijken gewoon gedoogd worden.
<>
Maakt het daarom niet legaal.
Maar er zijn wel degelijk wetten hierrond. Dat maakt het niet legaal.
Kan je me even het verschil uitleggen tussen "niet legaal" en "illegaal". Want "niet legaal" is gewoon een definitie van illegaal hoor... :P

Het zijn oude wetten hoor, something something database recht enzo.
Dat komt neer op 2 delen. Enerzijds het auteursrecht, waar ik hierboven de uitzondering al gegeven heb. Anderzijds het sui generis recht, wat ik idd vergeten was, maar wederom niet van toepassing voor het stuk dat de OP hier wilt doen. Want daar is volgende uitzondering geldig:
De handelingen die zonder de toestemming van de producent van de databank mogen worden gesteld, zijn de volgende:
  • opvraging en hergebruik van niet-substantiële delen van een databank (let wel, het herhaald en systematisch opvragen of hergebruiken van dergelijke niet-substantiële delen op zodanige wijze dat de databank kan gereconstrueerd worden, is dan weer niet toegestaan);
Sinds hij specifieke niet-substantiële dingen gaat opvragen waardoor de databank niet kan gereconstrueerd worden, is die uitzondering ook van toepassing.
 
"Illegaal" als in parket/strafbaar is het voor zover ik weet niet, tenzij het over copyright-beschermde werken gaat. Ik kan me toch geen enkele strafvervolging inzake voor de geest halen.

Het "slachtoffer" kan u voor de burgerlijke rechtbank dagen als in "inbreuk op TOS" etc, maar in de praktijk moet het wel al erg zijn voor men die stap zet denk ik. Gezien het burgerlijke rechtbank is, zal het dan vooral gaan over vergoeding van "schade" en hoeveel de schade bedraagt. Strafblad komt er daar uiteraard niet aan te pas.

Men zal m.i. vooral gebruik maken van verdediging - dus met captcha's, rate limiting of volledig blokkeren van datacenter IP's. Als die maatregelen op grote schaal omzeild worden (en dat kan uiteraard wel) dan pas zie ik dat eventueel rechtbank worden. Maar voor enkele keren per week (of zelfs per dag) niet. Het is dan op zich ook moeilijk om het zwart/wit te bewijzen.
Goeie input!

Bon, had even snel (van wat ik me nog herinner) snel even gezocht naar wat erover gezegd wordt:

kdenk dat deze ook de sources waren dat ik ergens liggen had.
 
<>


Kan je me even het verschil uitleggen tussen "niet legaal" en "illegaal". Want "niet legaal" is gewoon een definitie van illegaal hoor... :p


Dat komt neer op 2 delen. Enerzijds het auteursrecht, waar ik hierboven de uitzondering al gegeven heb. Anderzijds het sui generis recht, wat ik idd vergeten was, maar wederom niet van toepassing voor het stuk dat de OP hier wilt doen. Want daar is volgende uitzondering geldig:

Sinds hij specifieke niet-substantiële dingen gaat opvragen waardoor de databank niet kan gereconstrueerd worden, is die uitzondering ook van toepassing.
Dat laatste was ook niet duidelijk uit zijn oorspronkelijke uitleg though
edit: het verschil? Ik reageerde gewoon op de oorspronkelijke, redelijke vage en zeer ambigue post hé. Dit was voor mij een post a la "seg... hoe kunde weeral makkelijk op een account inloggen van iemand anders als die persoon zijn wachtwoord kwijt is"
 
Na het lezen van de artikelen toch even de algemene voorwaarden bekeken. Staat geen expliciete vermelding en we zullen het beperken tot 2-3x per jaar. Bedankt voor alle hulp!
 
Terug
Bovenaan