<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"><html><head><meta content="text/html;charset=UTF-8" http-equiv="Content-Type"></head><body ><div style="font-family: Verdana, Arial, Helvetica, sans-serif; font-size: 10pt;"><div>Hi Folks,<br></div><div><br></div><div>My parser rules are not being invoked for certain character classes.<br></div><div><br></div><div>For example, look at the İstanbul at this link:  <a href="https://en.wikipedia.org/w/index.php?title=Template:%C4%B0stanbul_B%C3%BCy%C3%BCk%C5%9Fehir_Belediyesi_sections&action=edit" target="_blank">https://en.wikipedia.org/w/index.php?title=Template:%C4%B0stanbul_B%C3%BCy%C3%BCk%C5%9Fehir_Belediyesi_sections&action=edit</a><br></div><div><br></div><div><br></div><div>The PEG specifieds its own grammar and in that there is a "regex" character classes defined thusly.<br></div><div><br></div><blockquote style="border: 1px solid rgb(204, 204, 204); padding: 7px; background-color: rgb(245, 245, 245);"><div>Escape                         <-   BACKSLASH [x] [0-9A-F]{6}<br></div></blockquote><div><br></div><div><br></div><div>which specifies an '\' followed by an 'x' followed by 6 characters in the 0-9 and A-F ranges.  i.e. \x000FOO  <br></div><div><br></div><div><br></div><div>I am guessing, but do not know, that I need a character class similar to the above that will handle the funky twirly above the "I" in İstanbul<br></div><div><br></div><div>I have been using a<b><i><u> code smell</u></i></b> rule I call DotNot i.e. not the dot that has clearly outlived its usefullness....<br></div><div><br></div><blockquote style="border: 1px solid rgb(204, 204, 204); padding: 7px; background-color: rgb(245, 245, 245);"><div>DotNot                          <-   [a-zA-Z0-9_\s\t\-\+\.\;\:\"\&\#\?\%\!\<\>\/\,\=\''\`\(\)\w]  <br></div></blockquote><div><br></div><div>That rule is used by other rules, to say "accept these characters" and for the links in the linked example that rule looks like:<br></div><div><br></div><blockquote style="border: 1px solid rgb(204, 204, 204); padding: 7px; background-color: rgb(245, 245, 245);"><div>LinkFreeCaptioned                          <- OPEN_BRACKET{2} DotNot*  PipeCaption<br></div></blockquote><div><br></div><div>which does a great job on English, but barfs on Instanbul<br></div><div><br></div><blockquote style="border: 1px solid rgb(204, 204, 204); padding: 7px; background-color: rgb(245, 245, 245);"><div>[[İstanbul Büyükşehir Belediyespor (basketball)|Basketball]]<br></div></blockquote><div>As you can see, the funky "I" is not in DotNot.</div><div><br></div><div><br></div><div>I have flailed around aimlessly here: <a href="https://regexr.com/" target="_blank">https://regexr.com/</a> to no avail.<br></div><div><br></div><div>Pointers appreciated.<br></div><div><br></div><div>cordially,<br></div><div><br></div><div><br></div></div><br></body></html>