【ＩＴ】コンピューターで全漢字使用可に６万字コード化

**みつを ★** · 2017/12/24(日) 22:36:10.23

https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html?utm_int=news_contents_news-main_001

12月24日 18時04分IT・ネット
日本語の漢字は、戸籍などに使われているものも含めると６万字あるのに対し、コンピューターは、実は１万字しか扱うことができません。これに対し、このほど１５年越しの作業の末、６万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、１つ１つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、コードが割りふられているのは１万字だけで、コードが無く、コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ５万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの２つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためＩＰＡ＝情報処理推進機構は平成１４年から、経済産業省とともに外字を含めたおよそ６万字の漢字１つ１つに、コードを割りつける作業を進めた結果、このほど１５年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の１つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。

ＩＰＡの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

漢字とコンピューターのこれまで

戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など１１種類、「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」などおよそ６０種類ありますが、このうちコンピューターが扱えるのは「べ」は３文字、「サイ」は１５文字ほどです。

また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは昭和５３年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、およそ６０００字でした。

その後、昭和５４年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに作っていました。

現在は、およそ１万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、対応が急がれていました。
（リンク先に続きあり)

**名無しさん＠１周年** · 2017/12/24(日) 22:37:31.87

チキン2ゲッツ

2017/12/24(日) 22:38:32.89

田布施システム日本語の学習は無駄

**名無しさん＠１周年** · 2017/12/24(日) 22:38:32.94

昔、俺の親父の免許も一部手書きになってたわ

**名無しさん＠１周年** · 2017/12/24(日) 22:38:36.18

( ・∀・)っ✄╰⋃╯

**名無しさん＠１周年** · 2017/12/24(日) 22:39:05.80

仕事増やすなよ
これで住民票も全部チェックして該当者のは入替発生だわ

**名無しさん＠１周年** · 2017/12/24(日) 22:39:23.74

全漢字ってどういうこと？

当用漢字だけじゃないってこと？

**名無しさん＠１周年** · 2017/12/24(日) 22:39:27.75

すごい

**名無しさん＠１周年** · 2017/12/24(日) 22:39:36.84

魚強
は入ってんの？

**名無しさん＠１周年** · 2017/12/24(日) 22:39:58.74

ウリは漢字が読めないニダ！
＜＊｀∀´＞

**名無しさん＠１周年** · 2017/12/24(日) 22:40:11.05

特に斉藤には偏屈な人が多くて、
メールの宛先の漢字が間違ってたらヘソを曲げて嫌がらせしてくる人がいるからな。

**名無しさん＠１周年** · 2017/12/24(日) 22:41:21.92

草彅は使える漢字になったの？

**名無しさん＠１周年** · 2017/12/24(日) 22:41:55.64

超漢字・・・

しかし自治体の基幹業務システムにおおむね反映されるのはいつの日やら・・・

**名無しさん＠１周年** · 2017/12/24(日) 22:41:59.64

甲
乙ﾑ

**名無しさん＠１周年** · 2017/12/24(日) 22:42:03.72

TRONコードの試みは貴重な踏み石扱いか

**名無しさん＠１周年** · 2017/12/24(日) 22:42:21.10

その昔トロンというものがあってだな・・・

**名無しさん＠１周年** · 2017/12/24(日) 22:42:41.51

草彅剛

**名無しさん＠１周年** · 2017/12/24(日) 22:43:13.97

>>7
当用漢字ってジジイかてめーわ

常用漢字にしても2000文字もないんだから
今回は日本で使われる全漢字ってことだ

**名無しさん＠１周年** · 2017/12/24(日) 22:43:30.26

またSEが過労死するんか

**名無しさん＠１周年** · 2017/12/24(日) 22:43:34.73

６万字も覚えきれないな

**名無しさん＠１周年** · 2017/12/24(日) 22:44:53.56

元号変わるより楽やで

**名無しさん＠１周年** · 2017/12/24(日) 22:45:47.27

　

　　＿ﾉ乙(､ﾝ､)＿小野不由美は十二国記の新作を出すように　難しい漢字でも大丈夫だよ＾＾

**名無しさん＠１周年** · 2017/12/24(日) 22:46:40.95

仕事柄、英語以外の外国語の文字もよく扱うのでUnicode一択だが、
Unicodeにもあれこれ種類があるから面倒くさい。
特にExcelでのUnicodeの扱い最悪。
書き出しはUTF16のみなのに読み込みはUTF7か8じゃないと駄目とか面倒ったらありゃしない。

**名無しさん＠１周年** · 2017/12/24(日) 22:46:44.88

はーい、あぁ！
Unicodeでまた新しい規格できますよ！
Unicode versionいくつだっけ？

**名無しさん＠１周年** · 2017/12/24(日) 22:46:54.92

1言語で6万文字もあるとか世界中からガイジ認定されるわ

**名無しさん＠１周年** · 2017/12/24(日) 22:47:13.65

unicode 2の時の
ハングル大移動は
ひどかった。

**名無しさん＠１周年** · 2017/12/24(日) 22:47:14.38

吉田のヨシのつくりが、って、こいつ日本語わかってんのか？
何で字の上半分が、つくりなんだ？
バカか。

**名無しさん＠１周年** · 2017/12/24(日) 22:47:21.31

戸籍ね
誤字や書き間違い多いからな
それを直せよ

**名無しさん＠１周年** · 2017/12/24(日) 22:47:57.18

国文学やってる奴はMacの超漢字が必須だっていうもんな。
なんぼか状況変わるのかね？
まだまだなのか。

**名無しさん＠１周年** · 2017/12/24(日) 22:48:22.32

ついでに常用漢字も撤廃しろ

「ねつ造」とか「わい曲」なんて字面が間抜けに過ぎる

**名無しさん＠１周年** · 2017/12/24(日) 22:48:29.55

脱ぎ脱ぎ君も　草なぎ　じゃなくなるの？

**名無しさん＠１周年** · 2017/12/24(日) 22:48:43.62

サロゲートペアとか未だによく理解できてないタコプログラマです

**名無しさん＠１周年** · 2017/12/24(日) 22:48:47.08

戸籍を整備する際の転記ミスがまったく修正されずに長年にわたって通用していたのが現況
いまさら変更は不可能になっている

**名無しさん＠１周年** · 2017/12/24(日) 22:49:05.83

>>7
全漢字というのは確かにおかしい。

漢字辞典のでっかいのには約三十万字漢字が登録されていて、中国でもだいたい同じなので、存在し、文字として多数から認識されている漢字は三十万字程度あると思われる。

六万字はあくまで日本の中で名前などで使われたことがある漢字ということだろう。

実は大昔からこんなに漢字があるわけではなく、明治以降の戸籍の発足に伴って、公務員と申告者の書き間違え、見間違い他でやたらに漢字のバリエーションが増えた。

だから、大半の漢字はそもそも単なる間違いで存続させる意味はない。

でも、IPAとかそれを存続理由の一つにしているから始末が悪い。

**名無しさん＠１周年** · 2017/12/24(日) 22:49:22.42

日本もそうだが、中國は繁体字を使え！

手書きでなら、
簡体字でもローマ字でも平仮名片仮名でも何だってよいが、
印刷物・本雑誌新聞等やモニター画面・テレビ字幕パソコンタイピング等では
表意に優れた繁体字（正體字）を使うべき。
コレを「識繁写簡」と言う。

21世紀以降の科学技術発展には６万語ある文字「漢字」が活かされる。
IoT（モノのインターネット）もそうだが、
これから益々高度化する有りと有らゆる高機能化部品に名前を付ける場合、
表音文字では最早限界に達している。
と言うか
その部品に意味付け出来る単語を創れない。
出来るのは番号や記号付けだけだ。
高機能化部品に意味を持った名前を付ける。
数百万点以上の高機能化部品の複合化、
数百億点以上の高機能化部品を利用した新アイディア創出等で
番号記号より意味ある名前を使った方が有利。と、思うぉ。

科学技術立国の日本もそうだが
「識繁写簡」を積極的に推進すべき。

あと、
６万語ある漢字でプログラミング言語も作るべき。
そして、人工知能の自己進化機能で
其のプログラミング言語を永続的にアップグレードさせるべき。
地球人の宇宙文字として、
漢字・繁体字（正體字）が相応しい。

**名無しさん＠１周年** · 2017/12/24(日) 22:49:36.62

亡父の名前も出るのかな「秋」の下に「手」と書くんだが。

**名無しさん＠１周年** · 2017/12/24(日) 22:49:44.53

>>28
異体字の始まりはだいたいこれ

**名無しさん＠１周年** · 2017/12/24(日) 22:49:46.95

それより「斉藤」と「渡辺」のバリエーションの多さはいい加減にしてほしい！

変換がどうのこうの以前に、細かい部分が老眼では見えないｗ

**名無しさん＠１周年** · 2017/12/24(日) 22:49:58.59

ボンクラばかりのＩＰＡが珍しく仕事らしい仕事してるんやな

**名無しさん＠１周年** · 2017/12/24(日) 22:50:01.96

>>3　　　　
田布施システムって、ウソがばれて失敗した反日デマだよ　

**名無しさん＠１周年** · 2017/12/24(日) 22:50:04.22

戦後の改革期に人名漢字を統一できなかったツケが回ってきたよな

渡「辺」、「斉」藤の各一種類で困らんやん

つまらんアイディンティティーを主張する輩も
戦後にやっとけば今ごろは死に絶えてたのに

**名無しさん＠１周年** · 2017/12/24(日) 22:50:29.28

Unicodeへの符号化が完了したということで
すぐに使えるわけじゃない
IVSに対応したシステムなんてほとんどないだろ

**名無しさん＠１周年** · 2017/12/24(日) 22:50:36.63

>>15
トロンは32ビットあるから、なんでもできる。
だからあわてないのだが、これはUnicodeの拡張なのでとっても窮屈。

そもそも漢字として確立してはいけない漢字が多数だから、あまり意味はない。

**名無しさん＠１周年** · 2017/12/24(日) 22:50:37.91

>>1
戸籍で使用できる漢字を常用漢字に統一するのが正道だと俺は思うのだが

**名無しさん＠１周年** · 2017/12/24(日) 22:50:46.18

これで喜ぶのは中国人だけだろ

**名無しさん＠１周年** · 2017/12/24(日) 22:50:54.48

>>18
魚偏に強いと書いてイワシと読む漢字が入っていません
ヴァル閣下が怒ります

**名無しさん＠１周年** · 2017/12/24(日) 22:50:59.67

ぶっちゃけ、苗字なんかに使っている漢字自体が
どこかで間違えた漢字にしちゃったんじゃないの？

**名無しさん＠１周年** · 2017/12/24(日) 22:51:04.17

昔の公務員が変な字で登録したのがはじまり
俺の先祖もとんでもない字で登録されてる

**名無しさん＠１周年** · 2017/12/24(日) 22:51:17.58

>>7
馬鹿すぎwww

**名無しさん＠１周年** · 2017/12/24(日) 22:51:40.94

檸檬も薔薇もOKか

**名無しさん＠１周年** · 2017/12/24(日) 22:51:44.47

>>18
ふ、ジジイめ。常用漢字は1945字から2136字と、今は2000字越えしとるわw

**名無しさん＠１周年** · 2017/12/24(日) 22:51:47.43

>>35
中国にそう言うなら、まず日本は常用漢字の使い方を撤廃しないとな。

桜とか学校とか全部ダメ。
そんなことができるのか？

**名無しさん＠１周年** · 2017/12/24(日) 22:51:57.20

超漢字、涙目だな。そろそろ存在意義がなくなりそうだ

今も無いとかいうな

**名無しさん＠１周年** · 2017/12/24(日) 22:51:58.33

>>35
それなら全部繁体文字で書けよ（笑）

**名無しさん＠１周年** · 2017/12/24(日) 22:52:12.10

>>41
漢字の違いでチョンかそうでないかが見分けられると聞いた

**名無しさん＠１周年** · 2017/12/24(日) 22:52:20.66

カク
張コウ
公孫サン

**名無しさん＠１周年** · 2017/12/24(日) 22:52:33.51

データベース検索でどうしても引っかからない名前がある原因は
大概、漢字の微妙なバリエーション違いｗ

**名無しさん＠１周年** · 2017/12/24(日) 22:52:35.05

なんでわざわざ旧字を使う？
突然旧字使いだした友人が居てびっくりしたわ
まあ、本来の戸籍なんだろうけど。

わざわざ字画がっつり増やして、アホやん

**名無しさん＠１周年** · 2017/12/24(日) 22:52:38.87

>>38
正直、大半は間違いなんだから、どこかで職権で無くさないといかなかった。

**名無しさん＠１周年** · 2017/12/24(日) 22:52:41.43

15年かけて6万文字ってことは
単純計算で1日10文字くらいしか登録できないのか

**名無しさん＠１周年** · 2017/12/24(日) 22:52:45.15

東洋医学は経穴名など今までかな書きを強いられてきたわ

**名無しさん＠１周年** · 2017/12/24(日) 22:53:22.17

マイナンバーを沢山見てどんだけ酷いか少しだけ分かった
書き間違いだろと思うような種類の多さ

**名無しさん＠１周年** · 2017/12/24(日) 22:53:33.62

>>50
そんなのはUnicodeで大丈夫だった。

バリエーションは字体でカバーすべきだった。

**名無しさん＠１周年** · 2017/12/24(日) 22:53:39.68

英語にしろ

**名無しさん＠１周年** · 2017/12/24(日) 22:53:55.85

まぴょーん☆

**名無しさん＠１周年** · 2017/12/24(日) 22:54:36.48

>>58
旧字じゃない。

その人または数人から数十人の名前でのみ使われる漢字。

**名無しさん＠１周年** · 2017/12/24(日) 22:54:40.09

超漢字…

**名無しさん＠１周年** · 2017/12/24(日) 22:55:06.72

ほとんど使わない旧字やマイナーな漢字なんて切り捨てろよ。
斎だの邊だのなんて全部一つの漢字に統一して人間の戸籍もそれに合わせて統一しろ。人間の方がシステムに合わせろよ。
これ以上無駄な文字コード使うなヴォケ。

**名無しさん＠１周年** · 2017/12/24(日) 22:55:09.21

フォントメーカー泣かせ

**名無しさん＠１周年** · 2017/12/24(日) 22:55:14.78

>>62
いや書き間違いなんだよ。

原簿がそうなってるから原簿の通りというだけで。

**名無しさん＠１周年** · 2017/12/24(日) 22:55:34.88

>>44
本人の同意を得られればだろ
戦前は漢字の表記が統一されてなかったからばらばらになってるだけ
公務員が嫌がらせで変な字を当ててることもあるけど

**名無しさん＠１周年** · 2017/12/24(日) 22:55:52.31

>>59
だよなぁ

**名無しさん＠１周年** · 2017/12/24(日) 22:55:55.55

6万字全部暗記している人いるんだろうか

**名無しさん＠１周年** · 2017/12/24(日) 22:56:04.78

>>69
フォントメーカーはむしろかき入れのタイミング。

セットで置き換えできるから結構美味しい。

**名無しさん＠１周年** · 2017/12/24(日) 22:56:18.44

トランプ　「お前ら何やってんねん？アルファベットで不便ないよ。」

安倍　「...」
文　「...」
蔡　「...」

**名無しさん＠１周年** · 2017/12/24(日) 22:56:39.19

色々めんどいから吉って書いてる
本当は土＋口のよしだけど

**名無しさん＠１周年** · 2017/12/24(日) 22:56:39.43

>>71
法律を改正して常用漢字に強制的に切り替えればいいんだよ。

**名無しさん＠１周年** · 2017/12/24(日) 22:56:57.38

むしろ漢字減らそうよ
島と嶋と嶌とか統一しようよ

**名無しさん＠１周年** · 2017/12/24(日) 22:57:02.55

登録されただけじゃ壁はなくなりません。

**名無しさん＠１周年** · 2017/12/24(日) 22:57:09.21

>>73
暗記するも何も、書き間違いが大半なんだから、覚えるよりも作る方が近い。

斎の時の点が尖っているとか、そんな話。

**名無しさん＠１周年** · 2017/12/24(日) 22:57:48.12

>>76
母の旧姓がその吉田だわ

**名無しさん＠１周年** · 2017/12/24(日) 22:57:58.52

最近のUnicodeは絵文字も入ってるゼ

**名無しさん＠１周年** · 2017/12/24(日) 22:58:02.69

苦節何十年だよ
簡単なようでいろいろ難しかったな

しかし、フォントも辞書もこれから開発だろ？

**名無しさん＠１周年** · 2017/12/24(日) 22:58:03.22

>>75
フォントの字体をコードで全部区別してんだよ

**名無しさん＠１周年** · 2017/12/24(日) 22:58:08.08

>>35
だったらおまえの文も
すべて繁体字で書けよ

**名無しさん＠１周年** · 2017/12/24(日) 22:58:08.98

今のままで充分に満足してます。

**名無しさん＠１周年** · 2017/12/24(日) 22:58:21.47

>>72
このままこの数万字漢字として残しても、その人の名前でしか使わないから、その人の検索性も落ちるし、良いことはない。

**名無しさん＠１周年** · 2017/12/24(日) 22:58:55.14

やまさきとかも大丈夫になったんか

**名無しさん＠１周年** · 2017/12/24(日) 22:59:00.96

なおフォント

**名無しさん＠１周年** · 2017/12/24(日) 22:59:09.80

おせーよ

**名無しさん＠１周年** · 2017/12/24(日) 22:59:29.11

コード付けたのは大成果だけど
各種の字体のフォント作らなきゃいけない
フォントクリエーターが(T_T)泣くな
使えるってことは作らなきゃいけないってことだよ

**名無しさん＠１周年** · 2017/12/24(日) 22:59:36.30

経産省も国民のためになることをするんだなあ
遅すぎるけど
それとも大混乱の始まりか

**名無しさん＠１周年** · 2017/12/24(日) 22:59:40.83

渡邊さんや齋藤さんが歓喜するのか

**名無しさん＠１周年** · 2017/12/24(日) 22:59:50.32

で、スマホやパソコンが対応するのはいつ頃？

**名無しさん＠１周年** · 2017/12/24(日) 22:59:54.62

>>43
Unicodeて多バイト文字あるよね

**名無しさん＠１周年** · 2017/12/24(日) 23:00:06.99

漢数字は順番にしてくれ

**名無しさん＠１周年** · 2017/12/24(日) 23:00:29.49

超漢字？

**名無しさん＠１周年** · 2017/12/24(日) 23:00:37.63

>>82
ああいうのはやめるべきやわ

**名無しさん＠１周年** · 2017/12/24(日) 23:00:48.28

やっとか　思うけど
素晴らしい　進歩

**名無しさん＠１周年** · 2017/12/24(日) 23:00:57.75

IPAが拡張した以上、日本語のタダIPAフォントは公的資金で作るわなぁ...。