<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<style>body{font-family:Helvetica,Arial;font-size:13px}</style>
</head>
<body>
<div style="font-family:Helvetica,Arial;font-size:13px; ">That doesn’t look like an encoding problem. The only places where you have these question marks is right behind a <. Try to look at the source with a hex-editor to identify the actual character that’s
 placed behind <. My guess would be character 0 or something similar. </div>
<div style="font-family:Helvetica,Arial;font-size:13px; "><br>
</div>
<div style="font-family:Helvetica,Arial;font-size:13px; ">Karsten</div>
<br>
<div class="gmail_signature">
<pre style="font-size: 14px;"><pre>Georg Heeg eK
Wallstraße 22
06366 Köthen

Tel.: 03496/214328
FAX: 03496/214712
Amtsgericht Dortmund HRA 12812</pre></pre>
</div>
<br>
<p class="airmail_on">Am 13. Februar 2020 um 21:27:18, tty (<a href="mailto:gettimothy@zoho.com">gettimothy@zoho.com</a>) schrieb:</p>
<blockquote type="cite" class="clean_bq"><span>
<div>
<div></div>
<div>Hi Folks.<br>
<br>
Over at http://menmachinesmaterials.com/WikitextParser ***<br>
<br>
When hitting HamburgerIcon->Database->Random Page I occasionally get what<br>
I call "Unicode spew"<br>
<br>
Here is a portion of a page.<br>
*<�!DOCTYPE html><�html class="no-js" lang="en"<br>
dir="ltr"><�head><�title>WikitextParser<�/title><�meta<br>
charset="utf-8"/><�link rel="stylesheet" type="text/css"<br>
href="/files/WADevelopmentFiles/development.css"/>...*<br>
<br>
<br>
However, on the image, if I run the page manually, the resulting XMLElement<br>
looks just fine.<br>
<br>
Here is the thing that caused the spew.<br>
<br>
*<body><p> Thierry IV or Theoderic IV ({{circa}} 720{{spaced ndash}}c. 782)<br>
was a Frankish <https://www.wikipedia.org/wiki/Franks> noble. Count of <br>
Autun <https://www.wikipedia.org/wiki/Autun> and Toulouse<br>
<https://www.wikipedia.org/wiki/Toulouse> ; he was thought to be a son of <br>
Sigebert V <https://www.wikipedia.org/wiki/Sigebert_V> , and grandson of <br>
Sigebert IV of Raze <https://www.wikipedia.org/wiki/Sigebert_IV_of_Raze> .<br>
It is now well documented that his supposed Davidic blood was a hoax (see <br>
Priory of Sion <https://www.wikipedia.org/wiki/Priory_of_Sion> ). Thierry<br>
married Auda <https://www.wikipedia.org/wiki/Auda_of_France> , daughter of <br>
Charles Martel <https://www.wikipedia.org/wiki/Charles_Martel> , sister of <br>
Pepin III <https://www.wikipedia.org/wiki/Pepin_III> .</p><br>
Children<br>
<ul><li>&lt;a<br>
href="https://www.wikipedia.org/wiki/William_of_Gellone"&gt;William of<br>
Gellone&lt;/a&gt; (755 – 28 May 812/4)</li><li>Alda of Gellone (born ca.<br>
770); married Fredalon</li><li>&lt;a<br>
href="https://www.wikipedia.org/wiki/Adalhelm_of_Autun"&gt;Adalhelm of<br>
Autun&lt;/a&gt;</li></ul><p>{{Persondata <div/>| NAME = Thierry<br>
04| ALTERNATIVE NAMES =| SHORT DESCRIPTION = Frankish noble| DATE OF BIRTH <br>
=| PLACE OF BIRTH =| DATE OF DEATH =| PLACE OF DEATH <br>
=}}{{DEFAULTSORT:Thierry 04}} Category:720s births<br>
<https://www.wikipedia.org/wiki/Category:720s_births> Category:780s deaths<br>
<https://www.wikipedia.org/wiki/Category:780s_deaths> Category:Counts of<br>
Autun <https://www.wikipedia.org/wiki/Category:Counts_of_Autun> <br>
Category:Counts of Toulouse<br>
<https://www.wikipedia.org/wiki/Category:Counts_of_Toulouse> <br>
Category:Frankish people<br>
<https://www.wikipedia.org/wiki/Category:Frankish_people> <br>
</p><p>{{France-noble-stub}}</p></body>*<br>
<br>
<br>
The method that posts the output is straightforward enough:<br>
<br>
*renderParsedOn: html<br>
| wikiGrammar wikiParser input actor|<br>
<br>
actor := PEGWikiMediaGeneratorTables new.<br>
actor transcripton <br>
ifTrue:[ Transcript clear].<br>
<br>
wikicode isNil<br>
ifTrue:[input := '== Welcome To WikitextParserBrowser ==']<br>
ifFalse:[input := wikicode].<br>
<br>
wikiGrammar := PEGParser grammarWikiMediaTables reading positioning. <br>
wikiParser := PEGParser parserPEG parse: 'Grammar' stream: wikiGrammar<br>
actor: PEGParserParser new.<br>
[[output := wikiParser parse: 'Page' stream: input actor: actor. ]<br>
on: Error<br>
do:[:ex | output := '<br>
Error parsing. see Wikicode tab for source <br>
']]<br>
ensure:[<br>
output := ((output asString copyReplaceAll: '<body>' with:'' )<br>
copyReplaceTokens:'</body>' with:'') .<br>
output := (output asString copyReplaceAll: '&gt;' with:'>'<br>
asTokens:false).<br>
output := (output asString copyReplaceAll: '&lt;' with:'<'<br>
asTokens:false)].<br>
html break;break. <br>
html html: output.<br>
<br>
*<br>
<br>
Is there something I should be doing to "output" to make the garbage go<br>
away?<br>
<br>
thanks in advance<br>
*** Alpha/Beta dev tool. If you get a DNU just hit the back button and try<br>
again. Please do not hit Debug (:<br>
<br>
<br>
<br>
--<br>
Sent from: http://forum.world.st/Seaside-General-f86180.html<br>
_______________________________________________<br>
seaside mailing list<br>
seaside@lists.squeakfoundation.org<br>
http://lists.squeakfoundation.org/cgi-bin/mailman/listinfo/seaside<br>
</div>
</div>
</span></blockquote>
</body>
</html>