<div dir="ltr">Thanks Simon for linking that issue!  Does the patch <a href="https://ghc.haskell.org/trac/ghc/attachment/ticket/8905/0001-EXPERIMENTAL-save-the-continuation-after-the-tag-che.patch">linked there</a> already cover what you suggested in your last mail?  I think no, it's a more limited change, but I'm having trouble understanding exactly what.<div><br></div><div>I've also got one really basic question -- was it decided long ago that all these stack limit checks are cheaper than having a guard page at the end of each stack and faulting to grow the stack?  (I couldn't find a place that this rationale was described on wiki.)</div><div><br></div><div>Best,</div><div>  -Ryan</div><div><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Sun, Nov 1, 2015 at 10:05 AM, Simon Marlow <span dir="ltr"><<a href="mailto:marlowsd@gmail.com" target="_blank">marlowsd@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Yes, I think we can probably do a better job of compiling case expressions.  The current compilation strategy optimises for code size, but at the expense of performance in the fast path.  We can tweak this tradeoff, perhaps under the control of a flag.<br>
<br>
Ideally the sequence should start by assuming that the closure is already evaluated, e.g.<br>
<br>
 loop:<br>
   tag = R2 & 7;<br>
   if (tag == 1) then // code for []<br>
   else if (tag == 2) then // code for (:)<br>
   else evaluate; jump back to loop<br>
<br>
The nice thing is that now that we don't need proc points, "loop" is just a label that we can directly jump to.  Unfortunately this only works when using the NCG, not with LLVM, because LLVM requires proc points, so we might need to fall back to a different strategy for LLVM.<br>
<br>
Similar topics came up here: <a href="https://ghc.haskell.org/trac/ghc/ticket/8905" rel="noreferrer" target="_blank">https://ghc.haskell.org/trac/ghc/ticket/8905</a> and I think there was another ticket but I can't find it now.<br>
<br>
Cheers<br>
Simon<br>
<br>
On 23/10/2015 19:00, Ryan Newton wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
     1. Small tweaks: The CMM code above seems to be /betting/ than the<span class=""><br>
        thunk is unevaluated, because it does the stack check and stack<br></span>
        write /before/ the predicate test that checks if the thunk is<br>
        evaluated (if(R1 & 7!= 0) gotoc3aO; elsegotoc3aP;).  With a<span class=""><br>
        bang-pattern function, couldn't it make the opposite bet?  That<br>
        is, branch on whether the thunk is evaluated first, and then the<br>
        wasted computation is only a single correctly predicted branch<br>
        (and a read of a tag that we need to read anyway).<br>
<br>
Oh, a small further addition would be needed for this tweak.  In the<br></span>
generated code above "Sp = Sp + 8;" happens /late/, but I think it could<span class=""><br>
happen right after the call to the thunk.  In general, does it seem<br>
feasible to separate the slowpath from fastpath as in the following<br>
tweak of the example CMM?<br>
<br>
<br></span>
*  // Skip to the chase if it's already evaluated:*<br>
*  start:*<br>
*      if (R2 & 7 != 0) goto fastpath; else goto slowpath;*<br>
*<br>
*<br>
*  slowpath:   // Formerly c3aY*<br>
*      if ((Sp + -8) < SpLim) goto c3aZ; else goto c3b0;*<br>
*  c3aZ:*<br>
*      // nop*<br>
*      R1 = PicBaseReg + foo_closure;*<br>
*      call (I64[BaseReg - 8])(R2, R1) args: 8, res: 0, upd: 8;*<br>
*  c3b0:*<br>
*      I64[Sp - 8] = PicBaseReg + block_c3aO_info;*<br>
*      R1 = R2;*<br>
*      Sp = Sp - 8;*<br>
<br>
*      call (I64[R1])(R1) returns to fastpath, args: 8, res: 8, upd: 8;*<br>
*      // Sp bump moved to here so it's separate from "fastpath"*<br>
*      Sp = Sp + 8;*<br>
*<br>
*<br>
*  fastpath: // Formerly c3aO*<br>
*      if (R1 & 7 >= 2) goto c3aW; else goto c3aX;*<br>
*  c3aW:*<br>
*      R1 = P64[R1 + 6] & (-8);*<br>
*      call (I64[R1])(R1) args: 8, res: 0, upd: 8;*<br>
*  c3aX:*<br>
*      R1 = PicBaseReg + lvl_r39S_closure;*<br>
*      call (I64[R1])(R1) args: 8, res: 0, upd: 8;*<span class=""><br>
<br>
<br>
<br>
<br>
<br>
_______________________________________________<br>
ghc-devs mailing list<br>
<a href="mailto:ghc-devs@haskell.org" target="_blank">ghc-devs@haskell.org</a><br>
<a href="http://mail.haskell.org/cgi-bin/mailman/listinfo/ghc-devs" rel="noreferrer" target="_blank">http://mail.haskell.org/cgi-bin/mailman/listinfo/ghc-devs</a><br>
<br>
</span></blockquote>
</blockquote></div><br></div>