<div dir="ltr">Thanks for the detailed answer. I now understand better why Smalltalk dictionaries are this way.<div><br></div><div>Best,</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Sat, Jun 30, 2018 at 2:05 AM, Levente Uzonyi <span dir="ltr"><<a href="mailto:leves@caesar.elte.hu" target="_blank">leves@caesar.elte.hu</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="">On Fri, 29 Jun 2018, Clément Bera wrote:<br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Do you guys agree with this?<br>
</blockquote>
<br></span>
Mostly. I don't think open addressing's performance is proporional to loadFactor / (1 - loadFactor). That formula would be correct if you had a an array filled up to loadFactor randomly, but linear probing creates longer chains due to clustering, so it's worse than that in practice.<br>
Here's a small table based on my measurements:<br>
<br>
lf      formula measurement<br>
0.5     1.0     ~1.5<br>
0.55    1.222   ~1.96<br>
0.6     1.5     ~2.62<br>
0.65    1.857   ~3.56<br>
0.7     2.333   ~5.06<br>
0.75    3.0     ~7.5<br>
0.8     4.0     ~12.0<br>
<br>
In Squeak load factor normally varies between 0.5 and 0.75, but it can be anything between 0.0 and 0.8 (only compaction can push load factor above 0.75), so performance can differ quite a bit. Based on these numbers 0.7 sounds like a reasonable upper limit - something we might want to consider.<br>
You might think that linear probing's clustering effect costs too much, but because of cache locality this is probably still faster than linked lists or double hashing.<br>
<br>
It is also irrelevant if you can store more elements than the size of the hash table, because that breaks the precondition of the use of hash tables, therefore the contract too. So, the promised O(1) runtime of operations is also gone in that case.<br>
<br>
Finally, removals do not clog the hash tables using open addressing unless you use lazy deletion[1], which is something you should avoid.<span class=""><br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
Their open addressing implementation is slightly different from the Smalltalk one (they have deleted entries upon removal while we fix collisions,<br>
at least in Pharo 6).<br>
</blockquote>
<br></span>
Proactively removing the garbage - aka #fixCollisionsFrom: - takes O(chain length) time, which is amortized O(1) if your hash function is good enough.<br>
Lazy deletion degrades lookup performance over time, because lookups have to treat deleted entries as existing entries. It makes deletion somewhat quicker, because you can stop the lookup procedure as soon as you find your element, but what you save is amortized O(1).<span class=""><br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Their chaining implementation does not use balanced binary tree when a bucket becomes large like Java's implementation.<br>
</blockquote>
<br></span>
Because hash tables in general don't do such thing. During my time at the<br>
university, it was one of the tricky questions why hash tables use linked lists instead of balanced binary trees for collision resolution.<br>
The answer is that you don't need them, because the contract of hash<br>
tables is that you'll (practically) not have long chains if your hash<br>
function is good enough.<br>
Using binary trees for collision resolution mitigate situations when your hash function is not good enough or when you don't have full control over your hash values. But those are fairly rare in practice, and you still lose the O(1) operation runtime cost.<br>
Binary trees also require your elements to have a total order defined on them.<span class=""><br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
I don't really understand why an open addressing implementation is trickier to implement, in high level languages such as Smalltalk I may agree<br>
that it might be easier to implement chaining, but in low level language such as in the VM, IMO open addressing is easier since you've got only<br>
one large chunk of memory to manage. Maybe it's because of hash collisions, having good hash and good hash collection size (See HashTableSizes) is<br>
not that easy.<br>
</blockquote>
<br></span>
It's easy to make indexing mistakes, especially when wrap-around is involved. Also, deletion is tricky and is often left as an exercise for the reader. Even the wikipedia article[2] has quite complex pseudocode for it. The version you find in Squeak has a few hidden tricks too, but those are there for performance and the code would still work without them.<br>
<br>
Levente<br>
<br>
[1] <a href="https://en.wikipedia.org/wiki/Lazy_deletion" rel="noreferrer" target="_blank">https://en.wikipedia.org/wiki/<wbr>Lazy_deletion</a><br>
[2] <a href="https://en.wikipedia.org/wiki/Open_addressing" rel="noreferrer" target="_blank">https://en.wikipedia.org/wiki/<wbr>Open_addressing</a><div class="HOEnZb"><div class="h5"><br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
I'm curious because I do more and more bare metal programming and I end up having to implement this kind of things myself, I've always implemented<br>
naive open addressing up until now without really understanding details.<br>
<br>
[1] <a href="http://www.algolist.net/Data_structures/Hash_table/Open_addressing" rel="noreferrer" target="_blank">http://www.algolist.net/Da<wbr>ta_structures/Hash_table/Open_<wbr>addressing</a><br>
<br>
On Sat, Jun 16, 2018 at 8:49 PM, Max Leske <<a href="mailto:maxleske@gmail.com" target="_blank">maxleske@gmail.com</a>> wrote:<br>
<br>
<br>
      On 8 Jun 2018, at 09:48, Stéphane Rollandin wrote:<br>
<br>
            FWIW it seems there is no SmallDictionary in Squeak.<br>
<br>
<br>
      Oh... Thanks Stéf, I wasn't aware of that.<br>
<br>
<br>
<br>
      On 8 June 2018, at 15:13, John Brant wrote:<br>
<br>
                        Is anyone aware of a reason for hanging on to SmallDictionary? I'm also curious to know how<br>
                        SmallDictionary came to be. There must have been some advantage over Dictionary at some point in<br>
                        the past.<br>
<br>
<br>
                  It came from RB… the idea was that there are (in the Refactoring engine) a lot of very small dictionaries with<br>
                  <10 elements.<br>
                  The idea is that for such dictionaries, the overhead of hashing was higher than just linear search.<br>
<br>
<br>
I created its ancestor in VW some 20+ years ago (as RBSmallDictionary).<br>
It was used when doing pattern matching. When it performs a pattern<br>
match against an AST, it puts the potential value of the pattern<br>
variable in the dictionary. If the value is used later in the pattern,<br>
then we can get the previous value and make sure that we have an<br>
equivalent AST. This allows you to write patterns like:<br>
<br>
        `@a = `@a<br>
<br>
to find where someone has the same expression on both sides of the #=<br>
message. Since most patterns have very few pattern variables, these<br>
dictionaries won't hold many entries. Furthermore, we are likely to<br>
abort the match when we have 0 entries.<br>
<br>
The original RBSmallDictionary had an #empty method that "emptied" the<br>
dictionary without actually removing any elements -- it just set the<br>
size to 0. In a general dictionary this would lead to memory leaks since<br>
the previous values are still held by the dictionary. However, these<br>
dictionaries were only used during the matching process and went away<br>
after the process completed.<br>
<br>
Anyway, at the time when we converted our pattern matching code from<br>
using the VW parser with our pattern matching extensions to use the new<br>
RB parser with pattern matching, the time to run Smalllint on the image<br>
was cut in half even though our parser was quite a bit slower than the<br>
VW parser. I don't remember everything that was done, but I think that<br>
most of the speedup came from having special pattern AST nodes and the<br>
small dictionary.<br>
<br>
<br>
John Brant<br>
<br>
<br>
<br>
Very interesting! Thanks John!<br>
<br>
As Marcus has mentioned before in this thread, it would make a lot of sense to run benchmarks again. Actually, I think it would be nice to<br>
have a benchmark suite for these cases, that would let us monitor the performance and ensure that changes to the codebase don't have a<br>
deteriorative effect. I'm not saying that it would be easy to make this happen, writing proper benchmarks is hard (for me especially, as it<br>
seems, given my utter failure to think of the edge cases before starting this thread). Such a suite might also prevent these sorts of<br>
questions on the mailing list in the future, or at least might make it easier to answer them.<br>
<br>
<br>
<br>
<br>
On 8 June 2018, at 13:01, Andres Valloud wrote:<br>
<br>
      In addition, open addressing with linear probing has superior cache line read behavior (no indirection / random traversal, and<br>
      if the first probe misses the second one was likely cached by the first one).<br>
<br>
<br>
<br>
Ah, nice catch! Although that would require frequent access to the dictionary / repeated access to the same items to have an effect,<br>
wouldn't it?<br>
<br>
<br>
On 8 Jun 2018, at 10:01, Clément Bera wrote:<br>
<br>
      Hi Max,<br>
<br>
      Theoretically, for a small number of elements, usually somewhere between 3<br>
      and 30 depending on implementations, a linear search is faster than a hash<br>
      search, especially in the Pharo dictionary hash search implementation.<br>
<br>
      Efficient dictionary implementations are usually bucket-based. The<br>
      dictionary holds a certain number of buckets, and based on the key hash,<br>
      the bucket where the key value is present is determined. Small buckets are<br>
      linear (arrays or linked list). Large buckets are typically balanced binary<br>
      trees (red-black trees typically). Under a certain number of elements there<br>
      is a single bucket, which means a linear search is performed, as for the<br>
      SmallDictionary. When it grows the dictionary search becomes a combination<br>
      between a hash search and a linear or tree search.<br>
<br>
      Pharo dictionary search is first hash-based, then all the buckets are<br>
      represented next to each other in the same arrays and a linear search is<br>
      performed there, leading to many collisions and slower search time<br>
      (especially when the element is not found), sometimes the code searches<br>
      over multiple buckets because the dictionary is too full or there are too<br>
      many near-collisions. The memory consumption is competitive with the<br>
      advanced implementations though (precise measurements would need to be<br>
      made).<br>
<br>
      Method dictionaries are represented differently to optimize the look-up<br>
      logic.<br>
<br>
      If you want to improve things and have one dictionary implementation<br>
      instead of two, implement or look for a bucket based dictionary and put it<br>
      in the base image instead of Dictionary. This is quite some work since<br>
      there are many APIs to port. You can look at the Pinnochio implementation,<br>
      it's quite good but they've not implemented large buckets.<br>
<br>
<br>
Thanks for the detailed explanations Clément and Levente. I'll probably not add a new dictionary implementation ;)<br>
<br>
<br>
<br>
<br>
      On Fri, Jun 8, 2018 at 8:46 AM, Max Leske <<a href="mailto:maxleske@gmail.com" target="_blank">maxleske@gmail.com</a>> wrote:<br>
<br>
            Hi,<br>
<br>
            I was messing around with SmallDictionary when I suddenly realised that I<br>
            can't find a single reason to use it over a normal Dictionary. While its<br>
            name and class comment imply that it is somehow an optimised Dictionary, I<br>
            don't see any measurement where that actually holds up. The following was<br>
            run in a Pharo 7 image on a recent VM (see below):<br>
<br>
            | d |<br>
            d := SmallDictionary new.<br>
            d sizeInMemory. "24"<br>
            [100000 timesRepeat: [<br>
                    1 to: 100 do: [ :i | d at:i put: i] ] ] timeToRun. "0:00:00:05.226"<br>
<br>
            [100000 timesRepeat: [<br>
                    d at: 48 ifAbsent: [] ] ] timeToRun. "0:00:00:00.041"<br>
<br>
<br>
<br>
            | d |<br>
            d := Dictionary new.<br>
            d sizeInMemory. "16"<br>
            [100000 timesRepeat: [<br>
                    1 to: 100 do: [ :i | d at:i put: i] ] ] timeToRun. "0:00:00:00.385"<br>
            [100000 timesRepeat: [<br>
                    d at: 48 ifAbsent: [] ] ] timeToRun.  "0:00:00:00.006"<br>
<br>
<br>
            As you can see, SmallDictionary is 8 bytes larger per instance and<br>
            significantly faster while reading and writing (I know that this isn't a<br>
            good benchmark but it suffices to make my point).<br>
<br>
<br>
            Is anyone aware of a reason for hanging on to SmallDictionary? I'm also<br>
            curious to know how SmallDictionary came to be. There must have been some<br>
            advantage over Dictionary at some point in the past.<br>
<br>
<br>
            Cheers,<br>
            Max<br>
<br>
<br>
<br>
<br>
<br>
            Image version: Pharo 7.0<br>
            Build information: Pharo-7.0+alpha.build.961.sha.<br>
            a69e72a97136bc3f93831584b6efa2<wbr>b1703deb84 (32 Bit)<br>
<br>
            VM version: CoInterpreter VMMaker.oscog- nice.2281 uuid:<br>
            4beeaee7-567e-1a4b-b0fb-bd95ce<wbr>302516 Nov 27 2017<br>
            StackToRegisterMappingCogit VMMaker.oscog-nice.2283 uuid:<br>
            2d20324d-a2ab-48d6-b0f6-9fc3d6<wbr>6899da Nov 27 2017<br>
            VM: 201711262336 <a href="https://github.com/OpenSmalltalk/opensmalltalk-vm.git" rel="noreferrer" target="_blank">https://github.com/OpenSmallta<wbr>lk/opensmalltalk-vm.git</a> $<br>
            Date: Mon Nov 27 00:36:29 2017 +0100 $ Plugins: 201711262336<br>
            <a href="https://github.com/OpenSmalltalk/opensmalltalk-vm.git" rel="noreferrer" target="_blank">https://github.com/OpenSmallta<wbr>lk/opensmalltalk-vm.git</a> $<br>
<br>
            OS: macOS 10.13.5<br>
            Machine: MacBook Pro (13-inch, 2016, Four Thunderbolt 3 Ports)<br>
<br>
<br>
<br>
<br>
      --<br>
      Clément Béra<br>
      <a href="https://clementbera.github.io/" rel="noreferrer" target="_blank">https://clementbera.github.io/</a><br>
      <a href="https://clementbera.wordpress.com/" rel="noreferrer" target="_blank">https://clementbera.wordpress.<wbr>com/</a><br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
--<br>
Clément Béra<br>
<a href="https://clementbera.github.io/https://clementbera.wordpress.com/" rel="noreferrer" target="_blank">https://clementbera.github.io/<wbr>https://clementbera.wordpress.<wbr>com/</a><br>
<br>
</blockquote>
</div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div dir="ltr"><span style="font-size:12.8px">Clément Béra<br></span><span style="color:rgb(0,0,238)"><a href="https://clementbera.github.io/" target="_blank">https://clementbera.github.io/</a></span><div style="font-size:12.8px"><a href="https://clementbera.wordpress.com/" target="_blank">https://clementbera.wordpress.com/</a></div></div></div></div></div></div>
</div>