Archief - Keywords van site halen

fartbunny · 11 apr 2012

is er iemand die mij kan helpen met een script/prog die bepaalde stukken tekst uit een website te lezen en op te slaan?

iets specifieker:
Op het werk gebruiken we Thinkstock, maar nu wil de baas dat elke keer we een beeldje afhalen, de keywords in de iptc data van het beeld worden opgeslagen (wat niet standaard meegegeven is door de site)
Ik had gedacht aan een applicatie (java?) die toelaat om het beeld dat je net hebt afgehaald erop te slepen, het script gaat dan naar de site en kijkt onder de html-tag "keyword" naar alle keywords en schrijft deze weg in het description veld van het beeldje..

de data wegschrijven is voor mij geen probleem via photoshop scripting in java maar kan iemand mij vertellen of het mogelijk is om via java te surfen naar thinkstock, te zoeken naar het desbetreffende beeldje en dan die keywords te kopiëren?

Fraggie · 11 apr 2012

De structuur van de website is redelijk simpel, dus stappenplan ziet er iets als volgt uit:

1) http connectie maken
2) html als XML behandelen en naar de div gaan waarin alle keywords zitten, vervolgens alle childs lezen
3) image opslaan (zelfde stappen als 2)
4) image openen, comments = keywords & saven

Oude python versies (<=2.6) kunnen dit native, bij nieuwere moet je gebruik maken van de PIL of dergelijk.

Gurdt · 12 apr 2012

Een mogelijk probleem, je gaat wellicht kijken naar de site waar de afbeelding staat, maar de afbeelding kan op een heel andere site staan. Ik kan dus een afbeelding van hbvl.be op mijn website embedden. Als je die afbeelding dan zou slepen, krijg je dan de URL van mijn webpage of die van het HBVL terug?

fartbunny · 12 apr 2012

volgens andere bronnen laat thinkstock geen automatische downloads toe van beelden.. maar als ik al kan handmatig het beeldje afhalen en het script dan voor mij de gegevens invult is dat al een enorme tijdswinst..

ok: ik kan nu de keywords opvragen als volgt:
<div id="keywordlist">
<a href="http://www.thinkstockphotos.com/search#K|2-3 Years|60586/f=PIHV">2-3 Years</a>,
<a href="http://www.thinkstockphotos.com/search#K|4-5 Years|60587/f=PIHV">4-5 Years</a>,
<a href="http://www.thinkstockphotos.com/search#K|Beautiful People|134792/f=PIHV">Beautiful People</a>,
<a href="http://www.thinkstockphotos.com/search#K|Beauty|66034/f=PIHV">Beauty</a>,
<a href="http://www.thinkstockphotos.com/search#K|Blond Hair|60945/f=PIHV">Blond Hair</a>,

Nu zou ik kunnen de tekst tussen de "|" nemen met split en dan die array verwerken maar (joepie jopie) "|" is een escape character en krijg ik niet de goeie array.. hoe deed je dat weer om op dat character te zoeken? str.split("(?<!\\\\)|"); geprobeerd maar lukt niet

Fraggie · 12 apr 2012

fartbunny zei:
ok: ik kan nu de keywords opvragen als volgt:
<div id="keywordlist">
<a href="http://www.thinkstockphotos.com/search#K|2-3 Years|60586/f=PIHV">2-3 Years</a>,
<a href="http://www.thinkstockphotos.com/search#K|4-5 Years|60587/f=PIHV">4-5 Years</a>,
<a href="http://www.thinkstockphotos.com/search#K|Beautiful People|134792/f=PIHV">Beautiful People</a>,
<a href="http://www.thinkstockphotos.com/search#K|Beauty|66034/f=PIHV">Beauty</a>,
<a href="http://www.thinkstockphotos.com/search#K|Blond Hair|60945/f=PIHV">Blond Hair</a>,

Nu zou ik kunnen de tekst tussen de "|" nemen met split en dan die array verwerken maar (joepie jopie) "|" is een escape character en krijg ik niet de goeie array.. hoe deed je dat weer om op dat character te zoeken? str.split("(?<!\\\\)|"); geprobeerd maar lukt niet

Of gewoon die a-tag als XML element bekijken en zijn property GetText (of dergelijk) lezen. Lijkt me de snelste & simpelste oplossing.

fartbunny · 13 apr 2012

is idd (beter) gelukt met xml.. allé nu nog iptc data kunnen wegschrijven (iemand hier ervaring mee?

)en een openfileDialog erin bokken en zou moeten goed genoeg werken om te kunnen gebruiken.. alleszinds thx voor de hulp

Fraggie · 13 apr 2012

Zie bv: IPTCInfo 1.9.5-6 : Python Package Index

fartbunny · 13 apr 2012

ik heb niet echt ervaring met python... iemand die een manier weet in java?

Anders ga ik Python es moeten bestuderen..

Archief - Keywords van site halen

fartbunny

Legacy Member

Fraggie

Legacy Member

Gurdt

Legacy Member

fartbunny

Legacy Member

Fraggie

Legacy Member

fartbunny

Legacy Member

Fraggie

Legacy Member

fartbunny

Legacy Member