Archief - Keywords van site halen

Het archief is een bevroren moment uit een vorige versie van dit forum, met andere regels en andere bazen. Deze posts weerspiegelen op geen enkele manier onze huidige ideeën, waarden of wereldbeelden en zijn op sommige plaatsen gecensureerd wegens ontoelaatbaar. Veel zijn in een andere tijdsgeest gemaakt, al dan niet ironisch - zoals in het ironische subforum Off-Topic - en zouden op dit moment niet meer gepost (mogen) worden. Toch bieden we dit archief nog graag aan als informatiedatabank en naslagwerk. Lees er hier meer over of start een gesprek met anderen.

fartbunny

Legacy Member
is er iemand die mij kan helpen met een script/prog die bepaalde stukken tekst uit een website te lezen en op te slaan?

iets specifieker:
Op het werk gebruiken we Thinkstock, maar nu wil de baas dat elke keer we een beeldje afhalen, de keywords in de iptc data van het beeld worden opgeslagen (wat niet standaard meegegeven is door de site)
Ik had gedacht aan een applicatie (java?) die toelaat om het beeld dat je net hebt afgehaald erop te slepen, het script gaat dan naar de site en kijkt onder de html-tag "keyword" naar alle keywords en schrijft deze weg in het description veld van het beeldje..

de data wegschrijven is voor mij geen probleem via photoshop scripting in java maar kan iemand mij vertellen of het mogelijk is om via java te surfen naar thinkstock, te zoeken naar het desbetreffende beeldje en dan die keywords te kopiëren?

Fraggie

Legacy Member
De structuur van de website is redelijk simpel, dus stappenplan ziet er iets als volgt uit:

1) http connectie maken
2) html als XML behandelen en naar de div gaan waarin alle keywords zitten, vervolgens alle childs lezen
3) image opslaan (zelfde stappen als 2)
4) image openen, comments = keywords & saven

Oude python versies (<=2.6) kunnen dit native, bij nieuwere moet je gebruik maken van de PIL of dergelijk.

Gurdt

Legacy Member
Een mogelijk probleem, je gaat wellicht kijken naar de site waar de afbeelding staat, maar de afbeelding kan op een heel andere site staan. Ik kan dus een afbeelding van hbvl.be op mijn website embedden. Als je die afbeelding dan zou slepen, krijg je dan de URL van mijn webpage of die van het HBVL terug?

fartbunny

Legacy Member
volgens andere bronnen laat thinkstock geen automatische downloads toe van beelden.. maar als ik al kan handmatig het beeldje afhalen en het script dan voor mij de gegevens invult is dat al een enorme tijdswinst..

ok: ik kan nu de keywords opvragen als volgt:
<div id="keywordlist">
<a href="http://www.thinkstockphotos.com/search#K|2-3 Years|60586/f=PIHV">2-3 Years</a>,
<a href="http://www.thinkstockphotos.com/search#K|4-5 Years|60587/f=PIHV">4-5 Years</a>,
<a href="http://www.thinkstockphotos.com/search#K|Beautiful People|134792/f=PIHV">Beautiful People</a>,
<a href="http://www.thinkstockphotos.com/search#K|Beauty|66034/f=PIHV">Beauty</a>,
<a href="http://www.thinkstockphotos.com/search#K|Blond Hair|60945/f=PIHV">Blond Hair</a>,


Nu zou ik kunnen de tekst tussen de "|" nemen met split en dan die array verwerken maar (joepie jopie) "|" is een escape character en krijg ik niet de goeie array.. hoe deed je dat weer om op dat character te zoeken? str.split("(?<!\\\\)|"); geprobeerd maar lukt niet

Fraggie

Legacy Member
fartbunny zei:
ok: ik kan nu de keywords opvragen als volgt:
<div id="keywordlist">
<a href="http://www.thinkstockphotos.com/search#K|2-3 Years|60586/f=PIHV">2-3 Years</a>,
<a href="http://www.thinkstockphotos.com/search#K|4-5 Years|60587/f=PIHV">4-5 Years</a>,
<a href="http://www.thinkstockphotos.com/search#K|Beautiful People|134792/f=PIHV">Beautiful People</a>,
<a href="http://www.thinkstockphotos.com/search#K|Beauty|66034/f=PIHV">Beauty</a>,
<a href="http://www.thinkstockphotos.com/search#K|Blond Hair|60945/f=PIHV">Blond Hair</a>,


Nu zou ik kunnen de tekst tussen de "|" nemen met split en dan die array verwerken maar (joepie jopie) "|" is een escape character en krijg ik niet de goeie array.. hoe deed je dat weer om op dat character te zoeken? str.split("(?<!\\\\)|"); geprobeerd maar lukt niet
Of gewoon die a-tag als XML element bekijken en zijn property GetText (of dergelijk) lezen. Lijkt me de snelste & simpelste oplossing.

fartbunny

Legacy Member
is idd (beter) gelukt met xml.. allé nu nog iptc data kunnen wegschrijven (iemand hier ervaring mee? :s)en een openfileDialog erin bokken en zou moeten goed genoeg werken om te kunnen gebruiken.. alleszinds thx voor de hulp

fartbunny

Legacy Member
ik heb niet echt ervaring met python... iemand die een manier weet in java?

Anders ga ik Python es moeten bestuderen..
Het archief is een bevroren moment uit een vorige versie van dit forum, met andere regels en andere bazen. Deze posts weerspiegelen op geen enkele manier onze huidige ideeën, waarden of wereldbeelden en zijn op sommige plaatsen gecensureerd wegens ontoelaatbaar. Veel zijn in een andere tijdsgeest gemaakt, al dan niet ironisch - zoals in het ironische subforum Off-Topic - en zouden op dit moment niet meer gepost (mogen) worden. Toch bieden we dit archief nog graag aan als informatiedatabank en naslagwerk. Lees er hier meer over of start een gesprek met anderen.
Terug
Bovenaan