<div dir="auto"><div><div class="gmail_extra"><div class="gmail_quote">On Feb 12, 2018 10:57 AM, "Joachim Durchholz" <<a href="mailto:jo@durchholz.org">jo@durchholz.org</a>> wrote:<br type="attribution"><blockquote class="quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="quoted-text">Am 11.02.2018 um 12:29 schrieb Merijn Verstraaten:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
On 11 Feb 2018, at 10:39, Alan & Kim Zimmerman <<a href="mailto:alan.zimm@gmail.com" target="_blank">alan.zimm@gmail.com</a>> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
What is the current and future status of UTF8 vs UTF-16 in the haskell world?<br>
<br>
I understand that currently Text uses UTF-16, and it is used generally because of compatibility requirements in the Microsoft ecosystem, but that there are movements afoot to move to a UTF8 only environment at some unspecified future point.<br>
</blockquote>
<br>
As far as I know there was a UTF-8 fork of Text made as part of the Summer of Code a year or so ago, but it got ditched because it turned out to be slower than the UTF16 version in practice.<br>
</blockquote></div>
Mmm... correctness is another relevant point here.<br>
Does Text handle characters beyond the Basic Multilingual Plane (U+00000 to U+0FFFF) properly, do does one have to deal with "surrogate pairs" there?<br>
<br>
I'm curious because I am seeing this kind of trouble in the Java world. The standard libraries there have pretty weak support for characters beyond 0x0FFFF, so most Java programmers pretend that these don't exist. I'm pretty sure Chinese users hate Java for that reason...<br></blockquote></div></div></div><div dir="auto"><br></div><div dir="auto">IIRC, the public Text interface works with code points, not 16-bit units. Length and indexing are O(n) for this reason.</div><div dir="auto"><br></div><div dir="auto">So there should be no issues from a correctness point of view.</div><div dir="auto"><br></div><div dir="auto">Chris</div><div dir="auto"><br></div><div dir="auto"><div class="gmail_extra"><div class="gmail_quote"><blockquote class="quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Regards,<br>
Jo<div class="elided-text"><br>
______________________________<wbr>_________________<br>
Haskell-Cafe mailing list<br>
To (un)subscribe, modify options or view archives go to:<br>
<a href="http://mail.haskell.org/cgi-bin/mailman/listinfo/haskell-cafe" rel="noreferrer" target="_blank">http://mail.haskell.org/cgi-bi<wbr>n/mailman/listinfo/haskell-caf<wbr>e</a><br>
Only members subscribed via the mailman list are allowed to post.</div></blockquote></div><br></div></div></div>