アクセント記号付きアルファベットのソートの履歴の現在との差分(No.1)

更新
履歴一覧
差分を表示
ソースを表示
履歴を表示
プログラミング/javascript/アクセント記号付きアルファベットのソートへ行く。
- 1 (2017-08-25 (金) 15:39:48)
- 2 (2017-08-25 (金) 15:44:44)
追加された行はこの色です。
削除された行はこの色です。
[[公開メモ]]

* 概要 [#z33bd964]

ホームページ上でアクセント記号付きアルファベット(Ë や ö など)
を含む文字列を「それらしく」ソートしたい。

* アクセント記号付アルファベットのソート順 [#ed12385f]

ここでの「それらしく」の意味は、「見た目が ABC 順になるように」とのこと。

どうやら本来、アクセント記号付文字列のソート順はロケール依存に強く依存していて、
例えばスウェーデンでは "abcdefghijklmnopqrstuvwxyzåäö" の順に並べるのが正しいソート順だったり、
デンマークやノルウェーでは "abcdefghijklmnopqrstuvwxyzæøå"
の順に並べるのが正しいソート順だったりするそうなのですが、
国際会議の参加者名などをソートする場合には公用語である英語ロケールでのソートにせざるを得ないので、
ここでは

「アクセント記号を取り去った上でソートする」

を「正しいソート順」としておきます。

* html エンティティ [#xa5ca45c]

オンラインフォームから名前を入力してもらう場合、
文字コードを UTF-8 にしておけばアクセント記号付アルファベットをそのまま入力できるのですが、
人によってはわざわざ html エンティティの形で入力してくれる場合があります。

例えば、ö を &ouml; とか &#214; とか &#xD6; とか書いても、ちゃんと ö として認識しなければならない。
例えば、Ö を &amp;Ouml; とか &amp;#214; とか &#xD6; とか書いても、ちゃんと Ö として認識しなければならない。

* やりたいこと [#j4d4abf7]

なので、やりたいのは、

- html エンティティを UTF-8 にデコードする
- UTF-8 文字列からアクセント記号を取り去る
- 大文字小文字を無視して並べる場合には、さらに大文字（あるいは小文字）に変換

** html エンティティを UTF-8 にデコードする [#d5d85ad9]

https://stackoverflow.com/questions/7394748/whats-the-right-way-to-decode-a-string-that-has-special-html-entities-in-it

こちらを参考に、he というライブラリを使うのが簡単のようです。

https://github.com/mathiasbynens/he

 LANG:html
 <script src="https://cdn.rawgit.com/mathiasbynens/he/670991a4/he.js"></script>

としておき、

 LANG:javascript
 string_without_html_entity = he.decode(string_with_html_entity);

のようにしてデコードできます。

** UTF-8 文字列からアクセント記号を取り去る [#fb651ab1]

https://stackoverflow.com/questions/990904/remove-accents-diacritics-in-a-string-in-javascript

こちらを参考に、ES6 から使える String.prototype.normalize により、
アクセント記号をアルファベットから分離し、
さらにアクセント記号を消去するのが簡単なようです。

 LANG:javascript
 str.normalize('NFD').replace(/[\u0300-\u036f]/g, "")
 str.normalize('NFD').replace(/[\u0300-\u036f]/g, '')

ただ、String.prototype.normalize はまだブラウザ上で自由に使えるわけではないため、

https://github.com/walling/unorm/

のようなライブラリで polyfill しておく必要があります。

 LANG:html
 <script src="https://cdn.rawgit.com/walling/unorm/219b1c17/lib/unorm.js"></script>

のようにして polyfill しておくのが無難です。

** 大文字小文字を無視して並べる場合には、さらに大文字（あるいは小文字）に変換 [#hbbb7647]

String.prototype.toUpperCase を使います。

* 最終コード [#ub61a08c]

 LANG:html
 <script src="https://cdn.rawgit.com/mathiasbynens/he/670991a4/he.js"></script>
 <script src="https://cdn.rawgit.com/walling/unorm/219b1c17/lib/unorm.js"></script>

しておき、

 LANG:javascript
 function normalizeString(s) {
   return he.decode(s).normalize('NFD').replace(/[\u0300-\u036f]/g, "").toUpperCase();
   // html エンティティを UTF-8 に直す
   // アクセント記号を除去する
   // 大文字に直す
   return he.decode(s).normalize('NFD').replace(/[\u0300-\u036f]/g, '').toUpperCase();
 }
 
 function compareString(a,b) {
   var na = normalizeString(a);
   var nb = normalizeString(b);
   if (na==nb) return 0;
   return na < nb ? -1 : 1;
 }
 
 arrayOfAccentedStrings.sort(compareString);

とします。

CoffeeScript なら、

 LANG:coffee
    normalizeString = (s)->
      he.decode(s).normalize('NFD').replace(/[\u0300-\u036f]/g, '').toUpperCase()
 
    compareString = (a,b)->
      na = normalizeString(a)
      nb = normalizeString(b)
      return 0 if na == nb
      if na < nb then -1 else 1
 
    arrayOfAccentedStrings.sort(compareString)

ですね。
* コメント・質問 [#tcd73e20]

#article_kcaptcha
Counter: 4597 (from 2010/06/03), today: 1, yesterday: 2