<div dir="ltr">Hi,<div>I tested three different HTML parsers and found SOUP to work best for my needs.</div><div>Thank you all.</div><div><br></div><div>Karl</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Jun 2, 2015 at 6:17 PM, Chris Muller <span dir="ltr">&lt;<a href="mailto:asqueaker@gmail.com" target="_blank">asqueaker@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="">On Mon, Jun 1, 2015 at 9:10 PM, Levente Uzonyi &lt;<a href="mailto:leves@elte.hu">leves@elte.hu</a>&gt; wrote:<br>
&gt; XMLTokenizer is not suitable to parse HTML documents. XML and HTML may look<br>
&gt; similar, but are very different.<br>
&gt; We used to use Soup[1] to parse HTML pages.<br>
<br>
</span>Have you used Todd Blanchard&#39;s &quot;HTML &amp; CSS Validating Parser&quot; [1], if<br>
so how does it compare to Soup?<br>
<br>
[1] -- <a href="http://www.squeaksource.com/htmlcssparser.html" target="_blank">http://www.squeaksource.com/htmlcssparser.html</a><br>
<br>
</blockquote></div><br></div>