【IT】コンピューターで全漢字使用可に 6万字コード化
■ このスレッドは過去ログ倉庫に格納されています
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html?utm_int=news_contents_news-main_001
12月24日 18時04分IT・ネット
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。
コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、コードが割りふられているのは1万字だけで、コードが無く、コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ5万字に上っています。
中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。
このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録されました。
この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。
IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。
漢字とコンピューターのこれまで
戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」などおよそ60種類ありますが、このうちコンピューターが扱えるのは「べ」は3文字、「サイ」は15文字ほどです。
また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは昭和53年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、およそ6000字でした。
その後、昭和54年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに作っていました。
現在は、およそ1万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、対応が急がれていました。
(リンク先に続きあり) 仕事増やすなよ
これで住民票も全部チェックして該当者のは入替発生だわ 全漢字ってどういうこと?
当用漢字だけじゃないってこと? 特に斉藤には偏屈な人が多くて、
メールの宛先の漢字が間違ってたらヘソを曲げて嫌がらせしてくる人がいるからな。 超漢字・・・
しかし自治体の基幹業務システムにおおむね反映されるのはいつの日やら・・・ >>7
当用漢字ってジジイかてめーわ
常用漢字にしても2000文字もないんだから
今回は日本で使われる全漢字ってことだ
_ノ乙(、ン、)_小野不由美は十二国記の新作を出すように 難しい漢字でも大丈夫だよ^^ 仕事柄、英語以外の外国語の文字もよく扱うのでUnicode一択だが、
Unicodeにもあれこれ種類があるから面倒くさい。
特にExcelでのUnicodeの扱い最悪。
書き出しはUTF16のみなのに読み込みはUTF7か8じゃないと駄目とか面倒ったらありゃしない。 はーい、あぁ!
Unicodeでまた新しい規格できますよ!
Unicode versionいくつだっけ? 1言語で6万文字もあるとか世界中からガイジ認定されるわ unicode 2の時の
ハングル大移動は
ひどかった。 吉田のヨシのつくりが、って、こいつ日本語わかってんのか?
何で字の上半分が、つくりなんだ?
バカか。 国文学やってる奴はMacの超漢字が必須だっていうもんな。
なんぼか状況変わるのかね?
まだまだなのか。 ついでに常用漢字も撤廃しろ
「ねつ造」とか「わい曲」なんて字面が間抜けに過ぎる サロゲートペアとか未だによく理解できてないタコプログラマです 戸籍を整備する際の転記ミスがまったく修正されずに長年にわたって通用していたのが現況
いまさら変更は不可能になっている >>7
全漢字というのは確かにおかしい。
漢字辞典のでっかいのには約三十万字漢字が登録されていて、中国でもだいたい同じなので、存在し、文字として多数から認識されている漢字は三十万字程度あると思われる。
六万字はあくまで日本の中で名前などで使われたことがある漢字ということだろう。
実は大昔からこんなに漢字があるわけではなく、明治以降の戸籍の発足に伴って、公務員と申告者の書き間違え、見間違い他でやたらに漢字のバリエーションが増えた。
だから、大半の漢字はそもそも単なる間違いで存続させる意味はない。
でも、IPAとかそれを存続理由の一つにしているから始末が悪い。 日本もそうだが、中國は繁体字を使え!
手書きでなら、
簡体字でもローマ字でも平仮名片仮名でも何だってよいが、
印刷物・本雑誌新聞等やモニター画面・テレビ字幕パソコンタイピング等では
表意に優れた繁体字(正體字)を使うべき。
コレを「識繁写簡」と言う。
21世紀以降の科学技術発展には6万語ある文字「漢字」が活かされる。
IoT(モノのインターネット)もそうだが、
これから益々高度化する有りと有らゆる高機能化部品に名前を付ける場合、
表音文字では最早限界に達している。
と言うか
その部品に意味付け出来る単語を創れない。
出来るのは番号や記号付けだけだ。
高機能化部品に意味を持った名前を付ける。
数百万点以上の高機能化部品の複合化、
数百億点以上の高機能化部品を利用した新アイディア創出等で
番号記号より意味ある名前を使った方が有利。と、思うぉ。
科学技術立国の日本もそうだが
「識繁写簡」を積極的に推進すべき。
あと、
6万語ある漢字でプログラミング言語も作るべき。
そして、人工知能の自己進化機能で
其のプログラミング言語を永続的にアップグレードさせるべき。
地球人の宇宙文字として、
漢字・繁体字(正體字)が相応しい。 亡父の名前も出るのかな「秋」の下に「手」と書くんだが。 それより「斉藤」と「渡辺」のバリエーションの多さはいい加減にしてほしい!
変換がどうのこうの以前に、細かい部分が老眼では見えないw ボンクラばかりのIPAが珍しく仕事らしい仕事してるんやな >>3
田布施システムって、ウソがばれて失敗した反日デマだよ 戦後の改革期に人名漢字を統一できなかったツケが回ってきたよな
渡「辺」、「斉」藤の各一種類で困らんやん
つまらんアイディンティティーを主張する輩も
戦後にやっとけば今ごろは死に絶えてたのに Unicodeへの符号化が完了したということで
すぐに使えるわけじゃない
IVSに対応したシステムなんてほとんどないだろ >>15
トロンは32ビットあるから、なんでもできる。
だからあわてないのだが、これはUnicodeの拡張なのでとっても窮屈。
そもそも漢字として確立してはいけない漢字が多数だから、あまり意味はない。 >>1
戸籍で使用できる漢字を常用漢字に統一するのが正道だと俺は思うのだが >>18
魚偏に強いと書いてイワシと読む漢字が入っていません
ヴァル閣下が怒ります ぶっちゃけ、苗字なんかに使っている漢字自体が
どこかで間違えた漢字にしちゃったんじゃないの? 昔の公務員が変な字で登録したのがはじまり
俺の先祖もとんでもない字で登録されてる >>18
ふ、ジジイめ。常用漢字は1945字から2136字と、今は2000字越えしとるわw >>35
中国にそう言うなら、まず日本は常用漢字の使い方を撤廃しないとな。
桜とか学校とか全部ダメ。
そんなことができるのか? 超漢字、涙目だな。そろそろ存在意義がなくなりそうだ
今も無いとかいうな >>41
漢字の違いでチョンかそうでないかが見分けられると聞いた データベース検索でどうしても引っかからない名前がある原因は
大概、漢字の微妙なバリエーション違いw なんでわざわざ旧字を使う?
突然旧字使いだした友人が居てびっくりしたわ
まあ、本来の戸籍なんだろうけど。
わざわざ字画がっつり増やして、アホやん >>38
正直、大半は間違いなんだから、どこかで職権で無くさないといかなかった。 15年かけて6万文字ってことは
単純計算で1日10文字くらいしか登録できないのか 東洋医学は経穴名など今までかな書きを強いられてきたわ マイナンバーを沢山見てどんだけ酷いか少しだけ分かった
書き間違いだろと思うような種類の多さ >>50
そんなのはUnicodeで大丈夫だった。
バリエーションは字体でカバーすべきだった。 >>58
旧字じゃない。
その人または数人から数十人の名前でのみ使われる漢字。 ほとんど使わない旧字やマイナーな漢字なんて切り捨てろよ。
斎だの邊だのなんて全部一つの漢字に統一して人間の戸籍もそれに合わせて統一しろ。人間の方がシステムに合わせろよ。
これ以上無駄な文字コード使うなヴォケ。 >>62
いや書き間違いなんだよ。
原簿がそうなってるから原簿の通りというだけで。 >>44
本人の同意を得られればだろ
戦前は漢字の表記が統一されてなかったからばらばらになってるだけ
公務員が嫌がらせで変な字を当ててることもあるけど >>69
フォントメーカーはむしろかき入れのタイミング。
セットで置き換えできるから結構美味しい。 トランプ 「お前ら何やってんねん?アルファベットで不便ないよ。」
安倍 「...」
文 「...」
蔡 「...」 色々めんどいから吉って書いてる
本当は土+口のよしだけど >>71
法律を改正して常用漢字に強制的に切り替えればいいんだよ。 >>73
暗記するも何も、書き間違いが大半なんだから、覚えるよりも作る方が近い。
斎の時の点が尖っているとか、そんな話。 苦節何十年だよ
簡単なようでいろいろ難しかったな
しかし、フォントも辞書もこれから開発だろ? >>75
フォントの字体をコードで全部区別してんだよ >>35
だったらおまえの文も
すべて繁体字で書けよ >>72
このままこの数万字漢字として残しても、その人の名前でしか使わないから、その人の検索性も落ちるし、良いことはない。 コード付けたのは大成果だけど
各種の字体のフォント作らなきゃいけない
フォントクリエーターが(T_T)泣くな
使えるってことは作らなきゃいけないってことだよ 経産省も国民のためになることをするんだなあ
遅すぎるけど
それとも大混乱の始まりか IPAが拡張した以上、日本語のタダIPAフォントは公的資金で作るわなぁ...。 ■ このスレッドは過去ログ倉庫に格納されています