Archief - C# - Html controleren

Het archief is een bevroren moment uit een vorige versie van dit forum, met andere regels en andere bazen. Deze posts weerspiegelen op geen enkele manier onze huidige ideeën, waarden of wereldbeelden en zijn op sommige plaatsen gecensureerd wegens ontoelaatbaar. Veel zijn in een andere tijdsgeest gemaakt, al dan niet ironisch - zoals in het ironische subforum Off-Topic - en zouden op dit moment niet meer gepost (mogen) worden. Toch bieden we dit archief nog graag aan als informatiedatabank en naslagwerk. Lees er hier meer over of start een gesprek met anderen.

SideShow

Legacy Member
Hallo

Ik heb op het werk ongeveer 300K "oude" documenten die ancient html bevatten.
Die moeten worden omgezet naar 1 pdf, volgens selectie van een gebruiker.

Er zitten heel af en toe documenten bij met echt kapotte html (bvb <table> afsluiten met </ta :wtf: )

Ik gebruik op het werk itextsharp om pdf's te genereren. Die is perfect in staat om html te parsen.
Als 1 document in de selectie van de gebruiker (dat kunnen er dus duizenden zijn) slechte html bevat, faalt het gehele pdf-genereer-proces.

Ik zou natuurlijk elk documentje eerst apart kunnen omzetten naar pdf om te zien als dat slaagt, maar dat zal vertragend werken.

Ik zoek dus iets die heel vlug html kan controleren. Ik wil dus NIET valideren, geen W3C toestanden, het moet gewoon "parsable" zijn, al is dat natuurlijk een vaag begrip.

Messias.

Legacy Member
Ge hebt wellicht wel zelf al Html Agility Pack gevonden? Dat is een realistische htmlparser, maar ik weet niet of 'ie ook zulke scenario's kan afhandelen. :)

SideShow

Legacy Member
Inderdaad, had die al geprobeerd. Jammergenoeg is die parser minder gevoelig voor gebrekkige html dan de itextsharp html parser.
Het archief is een bevroren moment uit een vorige versie van dit forum, met andere regels en andere bazen. Deze posts weerspiegelen op geen enkele manier onze huidige ideeën, waarden of wereldbeelden en zijn op sommige plaatsen gecensureerd wegens ontoelaatbaar. Veel zijn in een andere tijdsgeest gemaakt, al dan niet ironisch - zoals in het ironische subforum Off-Topic - en zouden op dit moment niet meer gepost (mogen) worden. Toch bieden we dit archief nog graag aan als informatiedatabank en naslagwerk. Lees er hier meer over of start een gesprek met anderen.
Terug
Bovenaan