[Subject Prev][Subject Next][Thread Prev][Thread Next][Subject Index][Thread Index]

[webdav-jp:0423] Re: Mac OS X で「 MacOS X 対応パッチ」



よしおかです。

> こんにちは。森です。

こんにちは、

> >> ですね。かなの濁点と半濁点なんて良く使われるものの入れ替えなんて、すごいこと
> >> しますね。Unicodeコンソーシアムでしたっけ。
> > 
> > それはUnicodeを誤解してると思うです……。うろ憶えの記憶ですが、
> > UnicodeV3では、濁点、半濁点はウムラウトなどと同じよーに結合文字で表現
> > されるよーになってるみたいです。
> [snip]
> > http://www.unicode.org/unicode/reports/tr15/tr15-22.html
> 
> ご紹介ありがとうございます。ええと、つまり後方互換性のために従来のコードも残
> してあって、結合文字としても表現できるようになった、ということですね。わたし
> も英語は得意じゃないので。

えーと、文字コードにかかわらなくなって(すでに10年近く)
最近のUnicodeのおっかけをしていないのでウソ120%かもしれませんが

濁点、半濁点等を結合文字で表現するとかしないとかいう話は
Unicode V1.0のころからあったと思います。

このNorimarization FormsというのはX0208のように
すべての文字を最初から表現した文字集合では、問題
にならないのですが、ハングル、タイその他の結合文字を
どうしても必要とする文字集合では、さけてとおれない問題
となっています。

JIS X0208も最近のバージョンでは、濁点、半濁点を、結合可能な
文字のようにあつかっているみたいで(おいおい、そんな非互換の
変更するなよ)、あたまは痛いのですが、日本語を処理するとき、
濁点、半濁点を結合文字として処理するメリットは通常ないので、
そのような実装というのは多分ないと思います。

でもって、正直ビックリなのは、Mac OSの開発者が日本語の
濁点、半濁点をCanonical decompositionしたということですね。

それはないだろう普通。

開発者にあってなぜそのような実装にしたのか、問いつめて
みたいです。

mod_encodingとかいろいろご苦労あるかとは思いますが、
ご愁傷様ということで。

よ
--
Hiro Yoshioka/CTO, Miracle Linux
mailto:hyoshiok@xxxxxxxxxxxxxxxx
http://www.miraclelinux.com
カーネルプログラマ募集中