タグ

unicodeに関するnuraiのブックマーク (2)

  • MySQL と寿司ビール問題 - かみぽわーる

    MySQL と Unicode Collation Algorithm (UCA) - かみぽわーる に関連するトピックで、 MySQL には寿司ビール問題というのがある。 寿司ビール問題どっかで詳しくお話を聞くべきだよなぁ。。。— RKajiyama (@RKajiyama) March 18, 2015 これはどういう問題かというと、 MySQL の Unicode では binary collation にしてコードポイントで比較しないと🍣と🍺に限らず絵文字が同値判定されるという問題です。 あれ? MySQL の utf8mb4 charset って、4バイト文字同士を比較すると同じ文字扱いされる? SELECT '🍣'='🍺' → 1 MySQL的には寿司とビールは同じ扱い。— とみたまさひろ (@tmtms) December 22, 2014 MySQLで select

    MySQL と寿司ビール問題 - かみぽわーる
  • Unicodeでの正規表現 - ぱせらんメモ

    http://kjirou.sakura.ne.jp/mt/2008/10/python_unicode.html例えば、ユニコード型文字列の内、漢字のみ("一"〜"龥")をマッチさせる場合 l = re.findall(u"[\u4e00-\u9fa5]+", "ひらがな漢字カタカナascii".decode("utf-8")) print l[0].encode("utf-8") # -> "漢字" 他の言語と違ってUnicode型というデータ型があるので明瞭極まりない! (from http://kjirou.sakura.ne.jp/mt/) PythonはわからないけどPerlに通じるものを感じたのでPerlでやってみた。 まずは上記のコードに似せたパターン。スクリプトファイルはUTF-8で作成。 use strict; use warnings; use Encode; my

    Unicodeでの正規表現 - ぱせらんメモ
  • 1