【ＩＴ】コンピューターで全漢字使用可に６万字コード化

1: 名無し

https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html?utm_int=news_contents_news-main_001

12月24日 18時04分IT・ネット
日本語の漢字は、戸籍などに使われているものも含めると６万字あるのに対し、コンピューターは、実は１万字しか扱うことができません。これに対し、このほど１５年越しの作業の末、６万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、１つ１つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、コードが割りふられているのは１万字だけで、コードが無く、コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ５万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの２つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためＩＰＡ＝情報処理推進機構は平成１４年から、経済産業省とともに外字を含めたおよそ６万字の漢字１つ１つに、コードを割りつける作業を進めた結果、このほど１５年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の１つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。

ＩＰＡの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

漢字とコンピューターのこれまで

戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など１１種類、「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」などおよそ６０種類ありますが、このうちコンピューターが扱えるのは「べ」は３文字、「サイ」は１５文字ほどです。

また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは昭和５３年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、およそ６０００字でした。

その後、昭和５４年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに作っていました。

現在は、およそ１万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、対応が急がれていました。
（リンク先に続きあり)

44: 名無し

>>1
戸籍で使用できる漢字を常用漢字に統一するのが正道だと俺は思うのだが

71: 名無し

>>44
本人の同意を得られればだろ
戦前は漢字の表記が統一されてなかったからばらばらになってるだけ
公務員が嫌がらせで変な字を当ててることもあるけど

77: 名無し

>>71
法律を改正して常用漢字に強制的に切り替えればいいんだよ。

4: 名無し

昔、俺の親父の免許も一部手書きになってたわ

——　当サイト人気記事　—–

6: 名無し

仕事増やすなよ
これで住民票も全部チェックして該当者のは入替発生だわ

7: 名無し

全漢字ってどういうこと？

当用漢字だけじゃないってこと？

18: 名無し

>>7

当用漢字ってジジイかてめーわ

常用漢字にしても2000文字もないんだから
今回は日本で使われる全漢字ってことだ

46: 名無し

>>18
魚偏に強いと書いてイワシと読む漢字が入っていません
ヴァル閣下が怒ります

51: 名無し

>>18
ふ、ジジイめ。常用漢字は1945字から2136字と、今は2000字越えしとるわw

34: 名無し

>>7

全漢字というのは確かにおかしい。

漢字辞典のでっかいのには約三十万字漢字が登録されていて、中国でもだいたい同じなので、存在し、文字として多数から認識されている漢字は三十万字程度あると思われる。

六万字はあくまで日本の中で名前などで使われたことがある漢字ということだろう。

実は大昔からこんなに漢字があるわけではなく、明治以降の戸籍の発足に伴って、公務員と申告者の書き間違え、見間違い他でやたらに漢字のバリエーションが増えた。

だから、大半の漢字はそもそも単なる間違いで存続させる意味はない。

でも、IPAとかそれを存続理由の一つにしているから始末が悪い。

49: 名無し

>>7
馬鹿すぎwww

8: 名無し

すごい

9: 名無し

魚強
は入ってんの？

11: 名無し

特に斉藤には偏屈な人が多くて、
メールの宛先の漢字が間違ってたらヘソを曲げて嫌がらせしてくる人がいるからな。

12: 名無し

草彅は使える漢字になったの？

13: 名無し

超漢字・・・

しかし自治体の基幹業務システムにおおむね反映されるのはいつの日やら・・・

14: 名無し

甲
乙ﾑ

15: 名無し

TRONコードの試みは貴重な踏み石扱いか

43: 名無し

>>15

トロンは32ビットあるから、なんでもできる。

だからあわてないのだが、これはUnicodeの拡張なのでとっても窮屈。

そもそも漢字として確立してはいけない漢字が多数だから、あまり意味はない。

16: 名無し

その昔トロンというものがあってだな・・・

17: 名無し

草彅剛

19: 名無し

またSEが過労死するんか

20: 名無し

６万字も覚えきれないな

21: 名無し

元号変わるより楽やで

22: 名無し

　　＿ﾉ乙(､ﾝ､)＿小野不由美は十二国記の新作を出すように　難しい漢字でも大丈夫だよ＾＾

23: 名無し

仕事柄、英語以外の外国語の文字もよく扱うのでUnicode一択だが、
Unicodeにもあれこれ種類があるから面倒くさい。
特にExcelでのUnicodeの扱い最悪。
書き出しはUTF16のみなのに読み込みはUTF7か8じゃないと駄目とか面倒ったらありゃしない。

24: 名無し

はーい、あぁ！
Unicodeでまた新しい規格できますよ！
Unicode versionいくつだっけ？

25: 名無し

1言語で6万文字もあるとか世界中からガイジ認定されるわ

26: 名無し

unicode 2の時の
ハングル大移動は
ひどかった。

27: 名無し

吉田のヨシのつくりが、って、こいつ日本語わかってんのか？
何で字の上半分が、つくりなんだ？
バカか。

28: 名無し

戸籍ね
誤字や書き間違い多いからな
それを直せよ

37: 名無し

>>28
異体字の始まりはだいたいこれ

29: 名無し

国文学やってる奴はMacの超漢字が必須だっていうもんな。
なんぼか状況変わるのかね？
まだまだなのか。

30: 名無し

ついでに常用漢字も撤廃しろ

「ねつ造」とか「わい曲」なんて字面が間抜けに過ぎる

31: 名無し

脱ぎ脱ぎ君も　草なぎ　じゃなくなるの？

32: 名無し

サロゲートペアとか未だによく理解できてないタコプログラマです

33: 名無し

戸籍を整備する際の転記ミスがまったく修正されずに長年にわたって通用していたのが現況
いまさら変更は不可能になっている

52: 名無し

>>35

中国にそう言うなら、まず日本は常用漢字の使い方を撤廃しないとな。

桜とか学校とか全部ダメ。
そんなことができるのか？

54: 名無し

>>35
それなら全部繁体文字で書けよ（笑）

36: 名無し

亡父の名前も出るのかな「秋」の下に「手」と書くんだが。

38: 名無し

それより「斉藤」と「渡辺」のバリエーションの多さはいい加減にしてほしい！

変換がどうのこうの以前に、細かい部分が老眼では見えないｗ

59: 名無し

>>38
正直、大半は間違いなんだから、どこかで職権で無くさないといかなかった。

72: 名無し

>>59
だよなぁ

39: 名無し

ボンクラばかりのＩＰＡが珍しく仕事らしい仕事してるんやな

42: 名無し

Unicodeへの符号化が完了したということで
すぐに使えるわけじゃない
IVSに対応したシステムなんてほとんどないだろ

45: 名無し

これで喜ぶのは中国人だけだろ

47: 名無し

ぶっちゃけ、苗字なんかに使っている漢字自体が
どこかで間違えた漢字にしちゃったんじゃないの？

48: 名無し

昔の公務員が変な字で登録したのがはじまり
俺の先祖もとんでもない字で登録されてる

50: 名無し

檸檬も薔薇もOKか

63: 名無し

>>50

そんなのはUnicodeで大丈夫だった。

バリエーションは字体でカバーすべきだった。

53: 名無し

超漢字、涙目だな。そろそろ存在意義がなくなりそうだ

今も無いとかいうな

56: 名無し

カク
張コウ
公孫サン

57: 名無し

データベース検索でどうしても引っかからない名前がある原因は
大概、漢字の微妙なバリエーション違いｗ

58: 名無し

なんでわざわざ旧字を使う？

突然旧字使いだした友人が居てびっくりしたわ

まあ、本来の戸籍なんだろうけど。

わざわざ字画がっつり増やして、アホやん

66: 名無し

>>58

旧字じゃない。

その人または数人から数十人の名前でのみ使われる漢字。

60: 名無し

15年かけて6万文字ってことは
単純計算で1日10文字くらいしか登録できないのか

61: 名無し

東洋医学は経穴名など今までかな書きを強いられてきたわ

62: 名無し

マイナンバーを沢山見てどんだけ酷いか少しだけ分かった
書き間違いだろと思うような種類の多さ

70: 名無し

>>62

いや書き間違いなんだよ。

原簿がそうなってるから原簿の通りというだけで。

67: 名無し

超漢字…

68: 名無し

ほとんど使わない旧字やマイナーな漢字なんて切り捨てろよ。
斎だの邊だのなんて全部一つの漢字に統一して人間の戸籍もそれに合わせて統一しろ。人間の方がシステムに合わせろよ。
これ以上無駄な文字コード使うなヴォケ。

69: 名無し

フォントメーカー泣かせ

74: 名無し

>>69

フォントメーカーはむしろかき入れのタイミング。

セットで置き換えできるから結構美味しい。

73: 名無し

6万字全部暗記している人いるんだろうか

80: 名無し

>>73

暗記するも何も、書き間違いが大半なんだから、覚えるよりも作る方が近い。

斎の時の点が尖っているとか、そんな話。

76: 名無し

色々めんどいから吉って書いてる
本当は土＋口のよしだけど

78: 名無し

むしろ漢字減らそうよ
島と嶋と嶌とか統一しようよ

【ＩＴ】コンピューターで全漢字使用可に ６万字コード化 | GEEK速報 - ギー速

【ＩＴ】コンピューターで全漢字使用可に６万字コード化 | GEEK速報 - ギー速