<br><br><div class="gmail_quote">On Tue, Aug 17, 2010 at 10:50 PM, Andrei Stebakov <span dir="ltr">&lt;<a href="mailto:lispercat@gmail.com">lispercat@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
I&#39;ve been looking for a nice and fast HTML parser.<br>
I&#39;ve found Zulq Alam&#39;s Soup<br>
(<a href="http://www.squeaksource.com/@vHckXt8_6gVtXFxy/XMrjDbIs" target="_blank">http://www.squeaksource.com/@vHckXt8_6gVtXFxy/XMrjDbIs</a>) it looks nice<br>
but it&#39;s way too slow for me (takes 5 sec to parse the page, my<br>
current lisp parser takes about 1 sec for that.)<br></blockquote><div><br></div><div>Have you tried Cog as Laurent suggests?  It may make the difference you need.  In any case I&#39;d be interested in teh speed comparison.</div>
<div><br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
I found another one, Todd Blanchard&#39;s HTML and CSS parser<br>
(<a href="http://www.squeaksource.com/@iMgHmTKVxU00wEdz/A0jkqk71" target="_blank">http://www.squeaksource.com/@iMgHmTKVxU00wEdz/A0jkqk71</a>) but I<br>
couldn&#39;t load it into Pharo 1.1 or Squeak 4.1.<br>
It complains about some syntax error and leaves the progress bar which<br>
I can&#39;t kill...<br>
I wonder if anyone (Todd?) can take a look at the parser and figure<br>
out how to fix it?<br>
<br>
What other options I have for an HTML parser?<br>
Looking at Pharo speed I wonder if there is any way to optimize it? Is<br>
JIT or some other speed optimization in plans for Pharo/Squeak?<br>
<br>
Thank you,<br>
<font color="#888888">Andrei<br></font></blockquote><div><br></div><div>cheers,</div><div>Eliot </div></div><br>