X



【IT】コンピューターで全漢字使用可に 6万字コード化
■ このスレッドは過去ログ倉庫に格納されています
0001みつを ★
垢版 |
2017/12/24(日) 22:36:10.23ID:CAP_USER9
https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html?utm_int=news_contents_news-main_001

12月24日 18時04分IT・ネット
日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、日本語の漢字で、コードが割りふられているのは1万字だけで、コードが無く、コンピューターが扱えない「外字」は、戸籍で使われているものをはじめおよそ5万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。

このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを正確に分析できたりするなどの効果が期待されています。

IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

漢字とコンピューターのこれまで

戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は「斉」「斎」「齊」「齋」などおよそ60種類ありますが、このうちコンピューターが扱えるのは「べ」は3文字、「サイ」は15文字ほどです。

また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは昭和53年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、およそ6000字でした。

その後、昭和54年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに作っていました。

現在は、およそ1万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、対応が急がれていました。
(リンク先に続きあり)
0003杉田水脈×はすみとしこファンクラブ ◆pSVLnuVDC4Ff
垢版 |
2017/12/24(日) 22:38:32.89ID:qEXa8YKo0
田布施システム 日本語の学習は無駄
0005名無しさん@1周年
垢版 |
2017/12/24(日) 22:38:36.18ID:MQlQTD2u0
( ・∀・)っ✄╰⋃╯
0006名無しさん@1周年
垢版 |
2017/12/24(日) 22:39:05.80ID:P3W7T3OS0
仕事増やすなよ
これで住民票も全部チェックして該当者のは入替発生だわ
0007名無しさん@1周年
垢版 |
2017/12/24(日) 22:39:23.74ID:3jyOXJHT0
全漢字ってどういうこと?

当用漢字だけじゃないってこと?
0011名無しさん@1周年
垢版 |
2017/12/24(日) 22:40:11.05ID:ZnfgWQG10
特に斉藤には偏屈な人が多くて、
メールの宛先の漢字が間違ってたらヘソを曲げて嫌がらせしてくる人がいるからな。
0013名無しさん@1周年
垢版 |
2017/12/24(日) 22:41:55.64ID:bmUgnDyY0
超漢字・・・


しかし自治体の基幹業務システムにおおむね反映されるのはいつの日やら・・・
0014名無しさん@1周年
垢版 |
2017/12/24(日) 22:41:59.64ID:D/VzSBTT0

乙ム
0015名無しさん@1周年
垢版 |
2017/12/24(日) 22:42:03.72ID:vwo+K1vq0
TRONコードの試みは貴重な踏み石扱いか
0017名無しさん@1周年
垢版 |
2017/12/24(日) 22:42:41.51ID:5+YVO/8U0
草g剛
0018名無しさん@1周年
垢版 |
2017/12/24(日) 22:43:13.97ID:E6VrodMc0
>>7
当用漢字ってジジイかてめーわ

常用漢字にしても2000文字もないんだから
今回は日本で使われる全漢字ってことだ
0019名無しさん@1周年
垢版 |
2017/12/24(日) 22:43:30.26ID:cAJWM3TG0
またSEが過労死するんか
0021名無しさん@1周年
垢版 |
2017/12/24(日) 22:44:53.56ID:ngmK4hsN0
元号変わるより楽やで
0022名無しさん@1周年
垢版 |
2017/12/24(日) 22:45:47.27ID:cIO+Z+i00
 

  _ノ乙(、ン、)_小野不由美は十二国記の新作を出すように 難しい漢字でも大丈夫だよ^^
0023名無しさん@1周年
垢版 |
2017/12/24(日) 22:46:40.95ID:NFAYtC2X0
仕事柄、英語以外の外国語の文字もよく扱うのでUnicode一択だが、
Unicodeにもあれこれ種類があるから面倒くさい。
特にExcelでのUnicodeの扱い最悪。
書き出しはUTF16のみなのに読み込みはUTF7か8じゃないと駄目とか面倒ったらありゃしない。
0024名無しさん@1周年
垢版 |
2017/12/24(日) 22:46:44.88ID:GdeaiPc40
はーい、あぁ!
Unicodeでまた新しい規格できますよ!
Unicode versionいくつだっけ?
0027名無しさん@1周年
垢版 |
2017/12/24(日) 22:47:14.38ID:iOArpWo+0
吉田のヨシのつくりが、って、こいつ日本語わかってんのか?
何で字の上半分が、つくりなんだ?
バカか。
0029名無しさん@1周年
垢版 |
2017/12/24(日) 22:47:57.18ID:abBHPtUI0
国文学やってる奴はMacの超漢字が必須だっていうもんな。
なんぼか状況変わるのかね?
まだまだなのか。
0030名無しさん@1周年
垢版 |
2017/12/24(日) 22:48:22.32ID:g9uDECkz0
ついでに常用漢字も撤廃しろ

「ねつ造」とか「わい曲」なんて字面が間抜けに過ぎる
0031名無しさん@1周年
垢版 |
2017/12/24(日) 22:48:29.55ID:0jHj1sXF0
脱ぎ脱ぎ君も 草なぎ じゃなくなるの?
0032名無しさん@1周年
垢版 |
2017/12/24(日) 22:48:43.62ID:wBkfn7M20
サロゲートペアとか未だによく理解できてないタコプログラマです
0033名無しさん@1周年
垢版 |
2017/12/24(日) 22:48:47.08ID:giSDl/8o0
戸籍を整備する際の転記ミスがまったく修正されずに長年にわたって通用していたのが現況
いまさら変更は不可能になっている
0034名無しさん@1周年
垢版 |
2017/12/24(日) 22:49:05.83ID:r9SN2PXG0
>>7
全漢字というのは確かにおかしい。

漢字辞典のでっかいのには約三十万字漢字が登録されていて、中国でもだいたい同じなので、存在し、文字として多数から認識されている漢字は三十万字程度あると思われる。

六万字はあくまで日本の中で名前などで使われたことがある漢字ということだろう。

実は大昔からこんなに漢字があるわけではなく、明治以降の戸籍の発足に伴って、公務員と申告者の書き間違え、見間違い他でやたらに漢字のバリエーションが増えた。

だから、大半の漢字はそもそも単なる間違いで存続させる意味はない。

でも、IPAとかそれを存続理由の一つにしているから始末が悪い。
0035名無しさん@1周年
垢版 |
2017/12/24(日) 22:49:22.42ID:YODspNtu0
日本もそうだが、中國は繁体字を使え!

手書きでなら、
簡体字でもローマ字でも平仮名片仮名でも何だってよいが、
印刷物・本雑誌新聞等やモニター画面・テレビ字幕パソコンタイピング等では
表意に優れた繁体字(正體字)を使うべき。
コレを「識繁写簡」と言う。

21世紀以降の科学技術発展には6万語ある文字「漢字」が活かされる。
IoT(モノのインターネット)もそうだが、
これから益々高度化する有りと有らゆる高機能化部品に名前を付ける場合、
表音文字では最早限界に達している。
と言うか
その部品に意味付け出来る単語を創れない。
出来るのは番号や記号付けだけだ。
高機能化部品に意味を持った名前を付ける。
数百万点以上の高機能化部品の複合化、
数百億点以上の高機能化部品を利用した新アイディア創出等で
番号記号より意味ある名前を使った方が有利。と、思うぉ。

科学技術立国の日本もそうだが
「識繁写簡」を積極的に推進すべき。

あと、
6万語ある漢字でプログラミング言語も作るべき。
そして、人工知能の自己進化機能で
其のプログラミング言語を永続的にアップグレードさせるべき。
地球人の宇宙文字として、
漢字・繁体字(正體字)が相応しい。
0036名無しさん@1周年
垢版 |
2017/12/24(日) 22:49:36.62ID:7XkKoQGw0
亡父の名前も出るのかな「秋」の下に「手」と書くんだが。
0037名無しさん@1周年
垢版 |
2017/12/24(日) 22:49:44.53ID:CNx+zVIw0
>>28
異体字の始まりはだいたいこれ
0038名無しさん@1周年
垢版 |
2017/12/24(日) 22:49:46.95ID:+tsQMLpt0
それより「斉藤」と「渡辺」のバリエーションの多さはいい加減にしてほしい!

変換がどうのこうの以前に、細かい部分が老眼では見えないw
0039名無しさん@1周年
垢版 |
2017/12/24(日) 22:49:58.59ID:HKhGi+sP0
ボンクラばかりのIPAが珍しく仕事らしい仕事してるんやな
0040名無しさん@1周年
垢版 |
2017/12/24(日) 22:50:01.96ID:mULLpnZX0
>>3    
田布施システムって、ウソがばれて失敗した反日デマだよ 
0041名無しさん@1周年
垢版 |
2017/12/24(日) 22:50:04.22
戦後の改革期に人名漢字を統一できなかったツケが回ってきたよな

渡「辺」、「斉」藤の各一種類で困らんやん

つまらんアイディンティティーを主張する輩も
戦後にやっとけば今ごろは死に絶えてたのに
0042名無しさん@1周年
垢版 |
2017/12/24(日) 22:50:29.28ID:xpYLBbWi0
Unicodeへの符号化が完了したということで
すぐに使えるわけじゃない
IVSに対応したシステムなんてほとんどないだろ
0043名無しさん@1周年
垢版 |
2017/12/24(日) 22:50:36.63ID:r9SN2PXG0
>>15
トロンは32ビットあるから、なんでもできる。
だからあわてないのだが、これはUnicodeの拡張なのでとっても窮屈。

そもそも漢字として確立してはいけない漢字が多数だから、あまり意味はない。
0044名無しさん@1周年
垢版 |
2017/12/24(日) 22:50:37.91ID:/kAZUT6R0
>>1
戸籍で使用できる漢字を常用漢字に統一するのが正道だと俺は思うのだが
0045名無しさん@1周年
垢版 |
2017/12/24(日) 22:50:46.18ID:VvsSlVzD0
これで喜ぶのは中国人だけだろ
0046名無しさん@1周年
垢版 |
2017/12/24(日) 22:50:54.48ID:cXlO1PUv0
>>18
魚偏に強いと書いてイワシと読む漢字が入っていません
ヴァル閣下が怒ります
0047名無しさん@1周年
垢版 |
2017/12/24(日) 22:50:59.67ID:Uon11msx0
ぶっちゃけ、苗字なんかに使っている漢字自体が
どこかで間違えた漢字にしちゃったんじゃないの?
0048名無しさん@1周年
垢版 |
2017/12/24(日) 22:51:04.17ID:5n4k/+uy0
昔の公務員が変な字で登録したのがはじまり
俺の先祖もとんでもない字で登録されてる
0051名無しさん@1周年
垢版 |
2017/12/24(日) 22:51:44.47ID:z42ZGswV0
>>18
ふ、ジジイめ。常用漢字は1945字から2136字と、今は2000字越えしとるわw
0052名無しさん@1周年
垢版 |
2017/12/24(日) 22:51:47.43ID:r9SN2PXG0
>>35
中国にそう言うなら、まず日本は常用漢字の使い方を撤廃しないとな。

桜とか学校とか全部ダメ。
そんなことができるのか?
0053名無しさん@1周年
垢版 |
2017/12/24(日) 22:51:57.20ID:XZ6gQUSx0
超漢字、涙目だな。そろそろ存在意義がなくなりそうだ

今も無いとかいうな
0054名無しさん@1周年
垢版 |
2017/12/24(日) 22:51:58.33ID:GdeaiPc40
>>35
それなら全部繁体文字で書けよ(笑)
0057名無しさん@1周年
垢版 |
2017/12/24(日) 22:52:33.51ID:+tsQMLpt0
データベース検索でどうしても引っかからない名前がある原因は
大概、漢字の微妙なバリエーション違いw
0058名無しさん@1周年
垢版 |
2017/12/24(日) 22:52:35.05ID:pDQ5gCMB0
なんでわざわざ旧字を使う?
突然旧字使いだした友人が居てびっくりしたわ
まあ、本来の戸籍なんだろうけど。

わざわざ字画がっつり増やして、アホやん
0059名無しさん@1周年
垢版 |
2017/12/24(日) 22:52:38.87ID:r9SN2PXG0
>>38
正直、大半は間違いなんだから、どこかで職権で無くさないといかなかった。
0060名無しさん@1周年
垢版 |
2017/12/24(日) 22:52:41.43ID:1oFZ3v8N0
15年かけて6万文字ってことは
単純計算で1日10文字くらいしか登録できないのか
0061名無しさん@1周年
垢版 |
2017/12/24(日) 22:52:45.15ID:O26Og0yS0
東洋医学は経穴名など今までかな書きを強いられてきたわ
0062名無しさん@1周年
垢版 |
2017/12/24(日) 22:53:22.17ID:Sbwlqafv0
マイナンバーを沢山見てどんだけ酷いか少しだけ分かった
書き間違いだろと思うような種類の多さ
0063名無しさん@1周年
垢版 |
2017/12/24(日) 22:53:33.62ID:r9SN2PXG0
>>50
そんなのはUnicodeで大丈夫だった。

バリエーションは字体でカバーすべきだった。
0065名無しさん@1周年
垢版 |
2017/12/24(日) 22:53:55.85ID:uXKE0Tf50
まぴょーん☆
0066名無しさん@1周年
垢版 |
2017/12/24(日) 22:54:36.48ID:r9SN2PXG0
>>58
旧字じゃない。

その人または数人から数十人の名前でのみ使われる漢字。
0067名無しさん@1周年
垢版 |
2017/12/24(日) 22:54:40.09ID:xQoV1d7w0
超漢字…
0068名無しさん@1周年
垢版 |
2017/12/24(日) 22:55:06.72ID:p+RU+k8B0
ほとんど使わない旧字やマイナーな漢字なんて切り捨てろよ。
斎だの邊だのなんて全部一つの漢字に統一して人間の戸籍もそれに合わせて統一しろ。人間の方がシステムに合わせろよ。
これ以上無駄な文字コード使うなヴォケ。
0070名無しさん@1周年
垢版 |
2017/12/24(日) 22:55:14.78ID:r9SN2PXG0
>>62
いや書き間違いなんだよ。

原簿がそうなってるから原簿の通りというだけで。
0071名無しさん@1周年
垢版 |
2017/12/24(日) 22:55:34.88ID:5n4k/+uy0
>>44
本人の同意を得られればだろ
戦前は漢字の表記が統一されてなかったからばらばらになってるだけ
公務員が嫌がらせで変な字を当ててることもあるけど
0072名無しさん@1周年
垢版 |
2017/12/24(日) 22:55:52.31ID:x1bTsZzr0
>>59
だよなぁ
0073名無しさん@1周年
垢版 |
2017/12/24(日) 22:55:55.55ID:645+42WT0
6万字全部暗記している人いるんだろうか
0074名無しさん@1周年
垢版 |
2017/12/24(日) 22:56:04.78ID:r9SN2PXG0
>>69
フォントメーカーはむしろかき入れのタイミング。

セットで置き換えできるから結構美味しい。
0075名無しさん@1周年
垢版 |
2017/12/24(日) 22:56:18.44ID:GdeaiPc40
トランプ 「お前ら何やってんねん?アルファベットで不便ないよ。」

安倍 「...」
文 「...」
蔡 「...」
0076名無しさん@1周年
垢版 |
2017/12/24(日) 22:56:39.19ID:xIInhRJE0
色々めんどいから吉って書いてる
本当は土+口のよしだけど
0078名無しさん@1周年
垢版 |
2017/12/24(日) 22:56:57.38ID:0aGFP69e0
むしろ漢字減らそうよ
島と嶋と嶌とか統一しようよ
0080名無しさん@1周年
垢版 |
2017/12/24(日) 22:57:09.21ID:r9SN2PXG0
>>73
暗記するも何も、書き間違いが大半なんだから、覚えるよりも作る方が近い。

斎の時の点が尖っているとか、そんな話。
0081名無しさん@1周年
垢版 |
2017/12/24(日) 22:57:48.12ID:xQoV1d7w0
>>76
母の旧姓がその吉田だわ
0083名無しさん@1周年
垢版 |
2017/12/24(日) 22:58:02.69ID:nkR2Zprm0
苦節何十年だよ
簡単なようでいろいろ難しかったな

しかし、フォントも辞書もこれから開発だろ?
0084名無しさん@1周年
垢版 |
2017/12/24(日) 22:58:03.22ID:5n4k/+uy0
>>75
フォントの字体をコードで全部区別してんだよ
0087名無しさん@1周年
垢版 |
2017/12/24(日) 22:58:21.47ID:r9SN2PXG0
>>72
このままこの数万字漢字として残しても、その人の名前でしか使わないから、その人の検索性も落ちるし、良いことはない。
0088名無しさん@1周年
垢版 |
2017/12/24(日) 22:58:55.14ID:SAQ/juYw0
やまさきとかも大丈夫になったんか
0091名無しさん@1周年
垢版 |
2017/12/24(日) 22:59:29.11ID:uwAn2MSf0
コード付けたのは大成果だけど
各種の字体のフォント作らなきゃいけない
フォントクリエーターが(T_T)泣くな
使えるってことは作らなきゃいけないってことだよ
0092名無しさん@1周年
垢版 |
2017/12/24(日) 22:59:36.30ID:LdEMDTCC0
経産省も国民のためになることをするんだなあ
遅すぎるけど
それとも大混乱の始まりか
0097名無しさん@1周年
垢版 |
2017/12/24(日) 23:00:29.49ID:TcYM8q+R0
超漢字?
0099名無しさん@1周年
垢版 |
2017/12/24(日) 23:00:48.28ID:ujVYQbJZ0
やっとか 思うけど
素晴らしい 進歩
0100名無しさん@1周年
垢版 |
2017/12/24(日) 23:00:57.75ID:GdeaiPc40
IPAが拡張した以上、日本語のタダIPAフォントは公的資金で作るわなぁ...。
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況