すべての漢字を取り出す正規表現

# 日本語トークンを切り出すための正規表現。
JP_TOKEN = re.compile(u"[一-龠]+|[ぁ-ん]+|[ァ-ヴ]+|[a-zA-Z0-9]+")

［亜-煕］はJIS漢字を検出するときに使う正規表現になります。
　本文中で触れている「一太郎 Lite2」の正規表現はUnicode仕様なので，すべての漢字を検出するには，[一-龠]を使用してください（龠は音読みで「ヤク」，訓読みで「ふえ」，Unicodeでは「9FA0」にあたります）。

※「すべての漢字を取り出す正規表現」については、id:toton:20051105 に記事を追加しました。
[一-龠]は漢字抽出の正規表現としては間違いで、正解はUnicodeスクリプト\p{Han}(perl)らしいです。 http://tama-san.com/?p=196
Unicodeブロック\p{InCJKUnifiedIdeographs}(java)、\p{IsCJKUnifiedIdeographs}(.net)が利用できるらしいです。http://module.jp/blog/regex_unicode_prop.html