趣味のページ。エフワンやガーデニングなど


機種依存文字考察

インターネットの基的なルールと機種依存文字 考察
 
20世紀末から、誰でも簡単にパソコンを買って手軽にインターネット接続できるようになりました。
これはとてもすばらしいことなのですが、免許や資格制度がないため、困ったことも起こります。
道路を歩く時には道路交通法という法律に従わなければなりませんが「歩行免許」というのはありません。しかし法律を守らない人がいると危険ですし 周囲に迷惑をかけることになります。そこで義務教育の中でもきちんとした交通ルールを教え、これを守るように、また道徳的な観点からもよいマナーを子供た ちに教える必要があります。インターネットの利用も道路の利用に似ています。しかし、あまりにも急速に普及したために便利さと引き換えに多くのトラブルも かかえてています。インターネット上の最も大きな問題は、コンピュータウィルスや迷惑メールのような悪意をもった人たちによる攻撃です。もう一方では、 「善意」の人たちが引き起こす問題もあります。これは「知らない」ことによるものです。それまでは専門的な知識を持った人たちだけが利用していたものが、 パソコンのことやインターネットのルールをよく知らないまま利用する人が多くなっています。新しい技術なので、教育や啓蒙が間に合いません。
一時期、半角カタカナ文字をメールの表題などに使う人のためにメールサーバーと呼ばれるコンピュータシステムなどが次々に故障し社会的混乱が生 じたことがありますが、これなどはその代表的な例です。原因を作った人たちは、けっしてネットワーク上のシステムを意図的に破壊しているのではなく、悪意 はないのだと思いますが、「知識がない」ために社会に大きな迷惑を与えてしまいます。ならば、そういった文字が使用できないようしておけばよさそうなもの ですが、インターネットが普及する前からパソコンやその周辺の技術ができていますから対策が間に合わないことになります。 善意の人が引き起こすトラブルは、ローカルなフォントに依存した文字、いわゆる機種依存文字と呼ばれているものの使用もあります。これには様々な場面で非 常に大きな迷惑をかけますが、いっこうに改善される様子がありません。迷惑をかけているという自覚がないため直らないようです。パソコンの利用者が増えれ ば増えるほどこうした困った人の数も増えているように感じられます。学校できちんと教育を受けていればよいのですが、まだ教える側の能力もそんなに高くあ りません。
知らずに使っていて指摘されてなおせる人ならまだよいのですが、中には「自分のパソコンで使っている文字が読めない方がおかしい」と開き直る人 もいて、この分野の教育や啓蒙がきちんとされないと、いつまでも改善されません。使ってはいけないと分かっていてそのような文字コードを使用する人は論外 ですが、知らずに使う人はもっと減って欲しいと思います。
インターネットを利用している人たちが使っているコンピュータは多種多様です。自分のコンピュータ上で書いた文字が他のコンピュータ上同じようにで読めるとは限りません。人間ですから誰でも間違いはおかすものですが、ルールを知らないことはとても恥ずかしいことです。
でもまだきちんとした教科書はこれからなのかも知れません。
  機種依存文字、ベンダー定義文字によるトラブルを避ける
 
日本語にはひらがな、カタカナと漢字がありますがこれらの文字全てがインターネットで使える訳ではありません。当然、日本語を表示したり印刷したりできるシステムを備えたパソコンが必要になりますが、やはり全ての文字がどのコンピュータでも使用できる訳ではありません。
日本語に関するこれらのルールを決めるのは、文部科学省や文化庁の仕事ではないのかと思ってしまいますが、これは経済産業省の範囲になっています。工業製品の基準や規格を定める日本工業規格(JIS)がコンピュータに使用できる文字などを定めているのです。
JIS(ジス)にはJIS X 0208 という規格があり、「コンピュータを使って日本語を情報交換するためのコード」を定めています。
一部の古いコンピュータを除いて日本語を取り扱うことのできるコンピュータでは「JIS X 0208 で規定されている文字」を読むことができるようになっています。
逆に言うと、このJIS X 0208 に定義されている文字は「共通語」ではなく、トラブルを引き起こす原因となります。
日本語はとても種類が多いため、どれが機種依存文字なのかよく分からないことがありますが、これを知らないとメールを送った相手に迷惑をかけますし、このような文字を使ったホームページなどを公開すると見識を疑われることにもなりますので、勉強をしなければなりません。
かくいうこのサイトも完全に機種依存文字を排除できているのかどうか、そのチェックは容易ではありません。
 
  使える記号、図形文字
 
JISの第1水準と第2水準の漢字は、日常使用する漢字のほとんどを網羅しているためほとんどトラブルの原因にはなりません。またASCII文字 と言われる半角の英数字もコンピュータで使用できる基本的な文字なので全く問題がありません。よくあるトラブルは全角で示される記号の方です。
X 0208 に定義されている記号は意外に多くありませんので、まず使える記号がどんなものか見るのがよいかも知れません。
(ただし古いNECのPC-9801 シリーズ(テキスト画面に文字を表示するもの)ではJIS X 0208 に対応していないため全てを表示することはできません)
  JISコード2122から215Bまで
 
´ ¨
_






  215Cから2250までの学術記号
 
± × ÷
¬


  216Bからまで2273の単位記号
 
° ¢ £




  2174からまで222E、2274から2279まで、227Eの一般記号
 
§

  罫線文字(素片)
 
  その他の使用できる文字
 
2330 − 2339 0123456789
2341 − 235A ABCDEFGHIJKLMNOPQRSTUVWXYZ
2361 − 237A abcdefghijklmnopqrstuvwxz
2421 − 2473 ぁあぃいぅうぇえぉおかがきぎくぐけげこごさざ  (中略)
まみむめもゃやゅゆょよらりるれろゎわゐゑをん
2521 − 2576 ァアィイゥウェエォオカガキギ  (中略) 
ラリルレロヮワヰヱヲンヴヵヶ
ギリシャ文字
2バイト
ΑΒΓΔΕΖΗΘΙΚΛΜΝΞΟΠΡ
ΣΤΥΦΧΨΩ

αβγδεζηθικλμνξοπρ
στυφχψω
キリル文字
2バイト
АБВГДЕЖЗИЙКЛМНОПР
СТУФХ
ЦЧШЩЪЫЬЭЮЯ

абвгдежзийклмнопр
стуфхцч
шщъыьэюяё
第1水準漢字 省略
第2水準漢字 省略
 
 
 
 
 
使えない記号の代表例:
 
JIS X 0208 に定義されていない記号は「日本語の標準コンピュータ」では使えません。もちろん特定の機種だけの世界ならば使うことは可能ですが、そうなるとインター ネットのような多種多様なコンピュータシステムが存在するところでは使用することはできませんので、日頃から使わないように心がけるのがトラブル防止には 一番です。
「定義されていないものは使わない」ようにすれば簡単ですが、それでも起こりやすい、勘違いしやすい例を示そうと思います。
最も多いのがNECのPC-9800シリーズの漢字ROMに搭載されている文字に起因するものです。昔はソフトウェアで文字(フォント)を管理すると描画に非常に時間がかかるためにハードウェアで文字フォントを持つ(漢字ROM、日本語ROM)ようになっていました。
またこの頃はプロポーショナルフォントは使えず全て等幅フォントだけでしたからローマ数字を一文字の中にぐっと詰め込んだフォントを外字として使用していました。
今なら文字間ピッチはソフトウェアが自動的に調整してくれるため、このような日本語フォントによってローマ数字を表すといった意味不明なことを行 う必要はありませんが、DOS/Vから日本語windowsへ発展していくときに過去の資産としてこれらの文字を組み込んだパソコンが発売されてしまいま した。
要するに規格外の文字と分かっているのに新しいOSでもそのまま使いつづけたため、このような経緯を全く知らなユーザーは、「自分のパソコンに入っている文字は全て使える」ものと勘違いをしてしまうことになります。
ローマ数字はアスキー文字で書けば、それこそ世界中で使えますが、日本語フォントを使うと日本のwindowsだけしか表示できない特殊な文字な のです。たとえばトヨタ自動車のマークツーという車の名前は、MarkIIと示されます。最後の文字はアルファベットの「アイ アイ」と二つ続けて書かれ ていますが、これが世界共通の書き方です。一文字でローマ数字を書く方法は本当は存在せず極めてローカルなものなのです。い
もうひとつ多いのがマル数字と呼ばれる記号です。円の中に数字が書かれた日本独特の文字ですが中の数字はアラビア数字です。
これも規格外なので使うことができませんが、活字文化の中で多く使われてきたためそれぞれのパソコンのフォントで適当に割り当てられています。
たとえばmacではwindowsとは異なったコードにこのマル数字を使っていますが白黒反転した文字まで持っています。機種間に互換性はありません。
次によくみかけるのが、一文字の中にカタカナをいくつか押し込んでキロだとかリットルなどの文字を表わすものです。
ここまで来るともうルール破りも大胆になってきますが、基本的に2つ以上の文字を組み合わせてひとつの文字にして作ったフォントは規格にありません。
   
 
ここで問題なのは、その「使えない記号や文字」をここに示す方法です。半分はグラフィックで示すことにします。代表例を示します。
特に半角のカタカナは、絶対に使ってはいけないものです。
 
   
  ローマ数字はもともと外来語です。わざわざ日本語を使う方が不自然です。次のように英語のアルファベットを使って書くのが正しい方法です。
  I II III IV V VI VII VIII IX X
  マル数字は、日本独特のものですが、残念ながらこれを正しい文字に置き換えることができません。
  (1)(2)(20)(21)(22)(100)
 
 
 
 
 
  その他のローカル文字
 
UNICODEの中には2バイトの記号や文字がたくさんあります。しかしJISコードがないため全てのフォントや全ての機種で使えるというものに はなっていません。まず次のような記号をみかけることがあります。JISマークってもちろんJISコードにありません。以下に示す例は全てグラフィックな のでパソコンの種類によらず表示が可能ですが、フォントとして示すとかなり乱れるものと思います。
 
 
 
一文字の中に無理矢理カッコやマルをいれた、いわゆる囲み文字というものが活字の世界などには多く見られます。しかしコンピュータの共通の記号にはなっていません。
 
 
 
 
 
 
 
マルや三角の記号のいくつかはJISに制定されていますが、ほとんどの絵文字的記号は機種依存文字です。
携帯電話のメールなどに使用されている絵文字がキャリヤが異なったりすると表示されないのと同様です。
 
 
 
 
 
 
単位記号や単位はもともと英語などの外来語です。したがってわざわざ日本語の2バイト文字で作る必要はないのですが、なぜかたくさんの外字が用いられています。
キログラムやシーシーを一文字で使っている人はとても便利な文字を見つけたと思って使っているのかも知れませんが、これは、「自分のパソコンで見ることができる文字はどこでも同じだという、とんでもない勘違い」の典型例です。
どの文字が使え、どの文字が使えないかを考えるよりも、単位記号はアルファベット(1バイト文字)で書くという習慣を持つことが大事だと思います。そうすれば機種依存文字を間違えて使用することはなくなると思います。
 
 
ギリシャ文字やキリル文字の表示はもともとはフォント体系を変えて示すものです。
パソコンにはマルチフォントや多国言語という概念がなく、各国専用のパソコンやOSがありました。日本では2バイト系の文字にギリシャ文字やキリ ル文字をあてはめて使っていました。macがマルチフォントを使用し2バイト系の文字を含めた多国言語OSを作ってからはギリシャ文字などを「漢字コー ド」で表す必要がなくなりましたが、一部はJISコードとして残っています
 
 
 
 
特殊な記号や矢印の一部はJISコードにありますが、そうでないものの方が多いようです。
ところどこにJISコードがあったりしますので、このあたりの文字の取扱いは複雑です。
間違えて使われることが多いのがリットルとローマ数字です。
新聞や教科書などの印刷に使用される活字とパソコンの通信用記号の体系は異なっています。しかし両者を同じものと混同するところからこのような間違いが生じるのではないでしょうか。
使えない文字を探すよりも使える文字を探す方が早いかも知れません。
 
 
 
 
  おまけ:あなたのパソコンで次の文字が読めますか?
 
上のグラフィックはwindowsのNetscapeで表示したもののスクリーンショットです。下にその時のデータを示します。
同じwindowsでもブラウザが異なると見えない文字があります。
macやLinuxではかなりの文字が化けるか表示されない文字が多いと思います。あなたのパソコンでは読めますか?
 


























 
 
 
 




















@ A B C D E F G H I J K
L M N O P Q R S




 
 
 
 
















 
 
 
 




 
ひとつの文字の中にカタカナを何文字かいれたフォントがあります。おそらく昔のワープロなどにあった文字の名残りなのだろうと思います。
リットルやドルなどを一文字で表す人は、文字の節約になったと思っているのかも知れませんが、インターネットの通信速度が向上し、パソコンの性能 が向上した今となっては、文字数を少しくらい減しても影響がありません。それよりも相手が読めない可能性が非常に大きいと言うことの方が大きな問題です。 それにしてもたくさんあります。一文字の株式会社というフォントを使って電子メールを書いて送ったりすると、相手によっては大変なトラブルのもとになりそ うです。
 
e i
` c
a k j d l
f n
_ m b
g h








~










 
まだまだあります。キログラムなどはkgと書いても合計2バイトです。漢字一文字も2バイトですからなんの節約にもならずトラブルの原因を作るだけです。
メーカーの考え方にもよると思いますが、このあたりのフォントはパソコンの標準フォントからはずしてしまう方がよいのではないかな、と思います。
 


r s

o p q u
t














 
ギリシャ文字や矢印はJIS規格に含まれていると思われがちですが、全てではありません。むしろ規格外のフォントの方が多いかも知れません。
 
ª « ­­® » ¹ º ¼ ½ ¾ ¿



Ā ā Ă ă Ą ą Ć ĉ Ċ ċ Č č Ď ď Đ đ
Ē ē Ĕ ĕ Ė ė Ę ę Ě ě Ĝ ĝ Ğ ğ Ġ ġ
Ģ ģ Ĥ ĥ Ħ ħ Ĩ ĩ Ī ī Ĭ ĭ Į į İ ı
IJ ij Ĵ ĵ Ķ ķ ĸ Ĺ ĺ Ļ ļ Ľ ľ Ŀ ŀ Ł
ł Ń ń Ņ ņ Ň ň ʼn Ŋ ŋ Ō ō Ŏ ŏ Š š
Ţ ţ Ť ť Ŧ ŧ Ũ ũ Ū ū Ŭ ŭ Ů ů Ű ű
Ų ų Ŵ ŵ Ŷ ŷ Ÿ Ź ź Ż ż Ž ž ſ ƀ Ɓ
Ƃ ƃ Ƅ ƅ Ɔ Ƈ ƈ Ɖ Ɗ Ƌ ƌ ƍ Ǝ Ə Ơ ơ
Ƣ ƣ Ƥ ƥ Ʀ Ƨ ƨ Ʃ ƪ ƫ Ƭ ƭ Ʈ Ư ư Ʊ
Ʋ Ƴ ƴ Ƶ ƶ Ʒ Ƹ ƹ ƺ ƻ Ƽ ƽ ƾ ƿ ǀ ǁ
ǂ ǃ DŽ Dž dž LJ Lj lj NJ Nj nj Ǎ ǎ Ǐ ǐ Ǒ
ǒ Ǔ ǔ Ǖ ǖ Ǘ ǘ Ǚ ǚ Ǜ ǜ ǝ Ǟ ǟ Ǡ ǡ
Ǣ ǣ Ǥ ǥ Ǧ ǧ Ǩ ǩ Ǫ ǫ Ǭ ǭ Ǯ ǯ ǰ ǵ
Ǻ ǻ Ǽ ǽ Ǿ ǿ ɐ ɑ ɒ ɓ ɔ




 
 
ɐ ɑ ɒ ɓ ɔ ɕ ɖ ɗ ɘ ə ɚ ɛ ɜ ɝ ɞ ɟ
ɠ ɡ ɢ ɣ ɤ ɥ ɦ ɧ ɨ ɩ ɪ ɫ ɬ ɭ ɮ ɯ
ɰ ɱ ɲ ɳ ɴ ɵ ɶ ɷ ɸ ɹ ɺ ɻ ɼ ɽ ɾ ɿ
ʀ ʁ ʂ ʃ ʄ ʅ ʆ ʇ ʈ ʉ ʊ ʋ ʌ ʍ ʎ ʏ
ʐ ʑ ʒ ʓ ʔ ʕ ʖ ʗ ʘ ʙ ʚ ʛ ʜ ʝ ʞ ʟ
ʠ ʡ ʢ ʣ ʤ ʥ ʦ ʧ ʨ






΄ ΅ Ά Έ Ή Ί Ό Ύ Ώ ΐ ϊ ϋ ό ύ ώ ϐ
ϑ ϒ ϓ ϔ ϕ ϖ Ϡ ϰ ϱ ϲ Ђ Ѓ Є Ѕ І Ї
Ј Љ Њ Ћ Ќ Ў Џ ђ ѓ є ѕ і ї ј љ њ
ћ ќ ў џ Ѡ ѡ Ѣ ѣ Ѥ ѥ Ѧ ѧ Ѩ ѩ Ѫ ѫ
Ѭ ѭ Ѯ ѯ Ѱ ѱ Ѳ ѳ Ѵ ѵ Ѷ ѷ Ѹ ѹ Ѻ ѻ
Ѽ ѽ Ѿ ѿ Ҁ ҁ ҂ ҃ ҄ ҅ ҆ Ґ ґ Ғ ғ
 
 
Ҕ ҕ Җ җ Ҙ ҙ Қ қ Ҝ ҝ Ҟ ҟ Ҡ ҡ Ң ң
Ҥ ҥ Ҧ ҧ Ҩ ҩ Ҫ ҫ Ҭ ҭ Ү ү Ұ ұ Ҳ ҳ
Ҵ ҵ Ҷ ҷ Ҹ ҹ Һ һ Ҽ ҽ Ҿ ҿ Ӏ Ӂ ӂ
Ӄ ӄ Ӈ ӈ Ӌ ӌ
Ӑ ӑ Ӓ ӓ Ӕ ӕ Ӗ ӗ
Ә ә Ӛ ӛ Ӝ ӝ Ӟ ӟ Ӡ ӡ Ӣ ӣ Ӥ ӥ Ӧ ӧ
Ө ө Ӫ ӫ Ӯ ӯ Ӱ ӱ Ӳ ӳ Ӵ ӵ Ӹ ӹ

׀ א ב ג ד ה ו ז ח ט י ך כ ל ם מ
ן נ ס ע ף פ ץ צ ק ר ש ת װ ױ ײ ׳
״
























 
 












T U V W X Y Z [ \ ]
@ A B C D E F G H I






















 
 
≲≳














 
 
参考:日本語文字の定義
  • JIS X 0208(7ビット及び8ビットの2バイト情報交換用符号化漢字集合) 及び JIS X 0212(情報交換用漢字符号 -補助漢字) の図形文字を,平仮名,片仮名,ラテン文字などの非漢字も含めて漢字と呼ぶ。
  • 漢字と JIS X 0201(7ビット及び8ビットの情報交換用符号化文字集合) の片仮名用図形文字,円記号,オーバラインとを合わせて日本語文字と呼ぶ。
  • [JIS X 0201]は, 使用を避けることが望ましい。
  • 現在も日本語文字とUNICODEの間のマッピングは解決されていない