X



【古代文明】AIによって発見された古代日本の文章の秘密
■ このスレッドは過去ログ倉庫に格納されています
0001猪木いっぱい ★
垢版 |
2019/07/15(月) 21:28:23.07ID:LNtW+nQr9
今では時代遅れの日本語のスクリプトで書かれた何十億もの古代のテキストの内容は、彼らが持っているかもしれない秘密を解読される事なく、研究者を長い間困惑させました。

くずし字として知られる古代の筆記体は、8世紀から20世紀初頭にかけて使用されましたが、現在、世界の人口の0.01パーセント未満しかそれを読むことができません。

現代の漢字に変換されたのは、ごく一部の文字だけです。手書きで言語を転写するには数百年が必要です。

しかし、日本の人文科学におけるオープンデータのためのROIS-DSセンターCのプロジェクト研究者タリンさんは、突破口の瀬戸際にいます。

現在、くずし筆文字を検索可能な漢字に変換するためのディープラーニング光学文字認識システムの開発に取り組んでいます。

「私たちが文学から日本の文化や歴史について知っていることはすべて手作業で行われています」と彼女は報道に語った。

「[テキスト]を書き起こして特定の単語を検索できる検索エンジンを作成できれば、他のテキストの内容がより迅速にわかります。」

モントリオール学習アルゴリズム研究所の研究者であるアレクス氏はこのプロジェクトを支援しており、GoogleのAI技術サポートと、国立文学研究所の17〜19世紀の書籍のラベル付きデータセットは、機械学習プログラムが4000以上の異なる文字をデコードします。

「機械学習プログラムを開始するときはいつでも、本当に簡単なことから始めたいので、正しいことをしていることを確認することができ、それほど難しいことではありません」

「最初の繰り返しで、文字通り1文字を検出し、それは徐々に最大400文字、その後4000文字まで移動しました。それは絶えず改善しており、まだ進歩の余地があります。」

タリンさんは、このモデルは1ページのテキストを2秒で解読でき、平均精度は85%であると語った。
「日本語の問題は、さまざまな文字が沢山あるということです。機械が学習するのに十分なサンプルを見つけることはできません(100パーセントの精度で十分です)」と彼女は言いました。

「私が感心したことの1つは、モデルが文字と画像のどちらであるかを区別できることです。イラストは文字に近く見えますが、スキップしても十分に賢いことに驚きました。

「人間と機械のコラボレーションが増えると、正確性はずっと高くなると考えられます」

google翻訳
https://www.9news.com.au/technology/artificial-intelligence-ancient-japanese-kuzushiji-texts-being-decoded-by-ai-google-machine-learning-tech-news-update/18669e01-e7f7-4ff4-b30d-885549a7a952
ひらがななのに読みづらい
https://imageresizer.static9.net.au/YE4DxQKW65F55wLgVz2uRCE2Oy0=/1200x0/smart/http%3A%2F%2Fprod.static9.net.au%2Ffs%2F6ce9f4ef-9b23-49a3-a7f5-cd1437d4046b
一般的日本人は右は読めるが左は読めない
https://imageresizer.static9.net.au/MfHQ11YGjsAe9h9RVuQ-f56BRi4=/1200x0/smart/http%3A%2F%2Fprod.static9.net.au%2Ffs%2F743ea959-ce27-4a4b-9f8c-527e21778c6d
0002名無しさん@1周年
垢版 |
2019/07/15(月) 21:29:43.27ID:izmgwmHw0
安倍「やれ」
AI「はい」
0005名無しさん@1周年
垢版 |
2019/07/15(月) 21:31:30.50ID:xDN17tBg0
Google翻訳、頭悪すぎて読む気にすらならない♪
言ってるほど仕事出来てないと思うわ♪
0007名無しさん@1周年
垢版 |
2019/07/15(月) 21:33:15.47ID:fX7YcbOq0
日本語が翻訳調で意味がわかりづらいけど
古文書を機会が読んでくれるわけね
一般家庭や神社等に伝わる古文書もコレで読んだり残すことができたら後々役立つね
0008名無しさん@1周年
垢版 |
2019/07/15(月) 21:33:25.73ID:Dsw8G5d70
英語の筆記体も教えろよ
古い手書きの英文が読めなくなる
0009名無しさん@1周年
垢版 |
2019/07/15(月) 21:33:33.41ID:M53ttr4R0
>現在、世界の人口の0.01パーセント未満しか

あの史料のニョロニョロ文字の可読性をはかるのに
分母は世界人口と来たかw それはまた大きく出たなア。
そりゃまああんなの読めるのは世界人口の0..01%をきるよな
世界人口の0.01%っていくつだ? ざっくり70億? その1万分の1?
ええと70万人? そりゃまあ下回るよなあwww

で、自称愛国者のネトウヨくんは当然ああいうの悉皆読めるんだよね?w
え? 無理? 無理だろう。そもそも現代日本語の活字だって読めないんだからwww
0011名無しさん@1周年
垢版 |
2019/07/15(月) 21:33:45.69ID:DBFezjJ40
これは素直にがんばれと言いたい
0012名無しさん@1周年
垢版 |
2019/07/15(月) 21:34:50.67ID:X33vM0qD0
寺子屋から教育をやり直せばいいだけ。
0013名無しさん@1周年
垢版 |
2019/07/15(月) 21:35:13.02ID:pXbMpq4j0
>>5
機械に使われている良い例だなw
0014名無しさん@1周年
垢版 |
2019/07/15(月) 21:35:34.08ID:ZAFDZ6X10
文字に起こしたら更に古い時代の変態文学だった
とかか
0016名無しさん@1周年
垢版 |
2019/07/15(月) 21:38:01.26ID:ITpW501QO
文字については昨年、弥生時代の硯(すずり)が発見された事により
なんと7世紀からいっきに3世紀まで時間が巻き戻り
日本の文字使用時期は中国(当時は魏)と並んでしまった
0017名無しさん@1周年
垢版 |
2019/07/15(月) 21:39:57.12ID:jsiAYQxC0
平仮名は韓国起原
0018名無しさん@1周年
垢版 |
2019/07/15(月) 21:40:29.34ID:yVLM4qFh0
崩し字は別にいいんだよ、問題は悪筆の方
書き下しで○とか虫食いになってんのは、おおかた字が汚くて何書いてんだか判らんから
0020名無しさん@1周年
垢版 |
2019/07/15(月) 21:41:51.19ID:n0Opkihd0
漢字は、「夜露死苦」的な当て字ばっかだろ
0022名無しさん@1周年
垢版 |
2019/07/15(月) 21:42:31.53ID:p+zT2bZx0
AIが発達すたならロンゴロンゴも解読してよ
0024名無しさん@1周年
垢版 |
2019/07/15(月) 21:43:58.36ID:DCI+L2uH0
役所の仕事って窓口対応含めてAIで良いよね
タバコ屋みたいなこといつまでやってんだって感じ
0025名無しさん@1周年
垢版 |
2019/07/15(月) 21:45:19.10ID:yPPQ3XH10
黄表紙なんかだと割りと読みやすいんだけどな
漢字が入るのとか江戸時代前期のになると読めない
0027名無しさん@1周年
垢版 |
2019/07/15(月) 21:45:54.54ID:xNeL98Kj0
>>20
ガチでそうなんだよなぁ
0028名無しさん@1周年
垢版 |
2019/07/15(月) 21:46:53.83ID:rYMUjs+c0
生活保護の受付はAIにやらせたらいいと思うのよね
0029名無しさん@1周年
垢版 |
2019/07/15(月) 21:48:17.56ID:O+SxHvvk0
フォントやスキャンした活字を完璧にテキストにしてくれるOCRソフトはなに?
0030名無しさん@1周年
垢版 |
2019/07/15(月) 21:49:05.02ID:IobRA8Ew0
Googleは翻訳とかどうでもいいから
マップのナビをまともに使えるレベルにしろ
0031名無しさん@1周年
垢版 |
2019/07/15(月) 21:49:11.60ID:aQptTcit0
>>26
それ翻訳すると「ネトウヨネトウヨバーカバーカ」だから・・・。

つまり、大した事言ってないのさ(笑)
0033名無しさん@1周年
垢版 |
2019/07/15(月) 21:50:00.32ID:fUmisA060
一昔前までコピー機がなかったなんて信じられない
どうやって書類配ったりしてたんだろ
0034名無しさん@1周年
垢版 |
2019/07/15(月) 21:51:26.92ID:RvA3lDX50
うちの元神主さんは平仮名の大家だった…本物やで日展の審査員やで 
もらった盆暮れの挨拶 年賀状、、読めね マッタク読めねえ
ソコは年賀状だからとアタリをつけて解読するんや、定型文が多いからな、、そしたらナントカ読めた
0036@猪木いっぱい ◆JdwJr6I0zY
垢版 |
2019/07/15(月) 21:52:52.26ID:LNtW+nQr0
>>23
AIに日本の古文書読ませる特訓中
0038名無しさん@1周年
垢版 |
2019/07/15(月) 21:53:07.20ID:M53ttr4R0
>>26
その煽りはね、非常に重要な示唆にとんでいるなw
つまりは、古文書、古文書なんて大抵は現代人に素読は不可能なもんだが
それはいったい誰に向けて何のために書かれたか、
これって結構わからないもんなんだよwww

他ならぬウリだってなんでまあこうも毎回毎回誰にあててるかわからぬ駄文を
結構な時間を割いて書き連ねているか、これは本当にわからない。
まあ強いて言えば詩神ムーサかアポロかディオニュソスか
とにかくダイモーンの導きによって書いているとしか言いようがないwww

え? 意味が分からない? わからなくていいんだよ。
所詮2ちょんの端書など、民の声。民の声とは天の声。
天の声にもたまには変な声があるなあ、とは福田赳夫もいうとるからねwww
0039名無しさん@1周年
垢版 |
2019/07/15(月) 21:54:01.88ID:szrtsjMg0
これは実に有効なAIの活用方法
0040名無しさん@1周年
垢版 |
2019/07/15(月) 21:54:22.58ID:RvA3lDX50
>>33
ガリ版 青焼き、ガキの頃はガリ版刷りのテストのお世話になったね
0042名無しさん@1周年
垢版 |
2019/07/15(月) 21:54:50.07ID:heoCddZX0
これもAI あれもAI たぶんAI きっとAI♪
0044名無しさん@1周年
垢版 |
2019/07/15(月) 21:56:38.86ID:mFarMyv30
>>7
正直江戸後期以前の古文書の文字は例外を除いて教科書の内容で十分理解できる。

つまり、これは歴史学の方からの要請ではない。
0045名無しさん@1周年
垢版 |
2019/07/15(月) 21:56:46.94ID:lHVtDU+g0
ハーバードの美人女性研究員の人がスラスラ読んでてビックリだったな。
ドキュメンタリーの内容はまったく思い出せないが。
0047名無しさん@1周年
垢版 |
2019/07/15(月) 21:57:21.30ID:mFarMyv30
>>15
残念。
85パーセントの精度は文章を読む上では全く不十分。

つまり役立たず。
0050名無しさん@1周年
垢版 |
2019/07/15(月) 21:59:33.59ID:RvA3lDX50
書き文字で凄いのは戸籍謄本 古い奴は手書きだよ 無茶苦茶小さな文字でしかも楷書で書かれているからな 
今まで見た中では失敗して訂正したのは一つも無かった 凄い精神力だよ
0051名無しさん@1周年
垢版 |
2019/07/15(月) 22:00:49.29ID:slQS0W2W0
おとこもすなるにっきというものをおんなもせんと

日本人のお茶目っぷりがバレてしまふ
0053名無しさん@1周年
垢版 |
2019/07/15(月) 22:04:36.96ID:nu/aluWu0
俺が書いたメモとかも数千年後にこうやって解読されるんだろうな
0054<ヽ`∀´>
垢版 |
2019/07/15(月) 22:04:37.82ID:kyuOE/jN0
字は解読出来ても当て字だからねぇ
0055名無しさん@1周年
垢版 |
2019/07/15(月) 22:05:08.59ID:5srfh4Cf0
0.01%でも読める人は居るのだから
その人に解読してもらえばいいだろ?

その人からAIへ教育してもらってもいい
0060名無しさん@1周年
垢版 |
2019/07/15(月) 22:07:40.25ID:p5zwUhfF0
学生の頃に教わってたドイツ人の先生は
日本語の草書が読めたんでびっくりした。
日本語は草書が読めないといけないものだと
勘違いしていて、日本に赴任する前に猛勉強
したんだと。
0061名無しさん@1周年
垢版 |
2019/07/15(月) 22:08:34.53ID:RwugQREg0
江戸時代の万葉仮名読みを思い出すな
当て字いっぱいある中で当てて行ったんだよね
0062名無しさん@1周年
垢版 |
2019/07/15(月) 22:08:46.86ID:kjSouJ2b0
>>51
誤)おとこ / にっき / という
正)をとこ / にき / といふ

末尾は
おんなもしてみむとてするなり
0063名無しさん@1周年
垢版 |
2019/07/15(月) 22:08:53.72ID:yPPQ3XH10
>>48
左は『女大学』だな
女の心得を説いた江戸時代の本
右は分からん
0064名無しさん@1周年
垢版 |
2019/07/15(月) 22:09:29.47ID:RwugQREg0
>>62
そうか、なんか変だと思ったんだよねw
0065名無しさん@1周年
垢版 |
2019/07/15(月) 22:12:53.27ID:1H0L7LG10
>>23
AIは三行(で)書くめい、はムリ。
0066名無しさん@1周年
垢版 |
2019/07/15(月) 22:17:25.19ID:lhNKdU9O0
変体仮名をAIって無理あるんじゃないかなぁ…
候文ならまあ行けるかもしれないけど
0067名無しさん@1周年
垢版 |
2019/07/15(月) 22:19:14.09ID:2Ff97N6i0
一番下の写真、左。
男子(なんじ)よりも親
の教(をしへ)ゆるかせに
すべからず父母(ふ?)
寵愛(ちやうあい)して恣(ほしひまま)に
育(そだて)ぬれば夫(をつと)の
家(いへ)に行(ゆき)て必(かならず)気(き)
随(ずひ)にて夫(をつと)に疎(うと)
まれ又は舅(しうと)の誨(をしへ)
正(ルビ?)ければ難(がたく)堪(たえ)
思ひ舅(しうと)を恨(うらみ)誹(そし)り

男子「だん」か「なん」か判別不能
父母「ふぼ」か「ふも」か判別不能
0069名無しさん@1周年
垢版 |
2019/07/15(月) 22:21:31.72ID:ocNkqW9l0
気を付けないと終末計画発動するぞ
0070名無しさん@1周年
垢版 |
2019/07/15(月) 22:22:45.01ID:4cX7+aVo0
今だったらAIでロゼッタストーンを解読できそう。
研究者がどうしても解読できなかったのに子供が解読したんだよな。
0071名無しさん@1周年
垢版 |
2019/07/15(月) 22:23:34.83ID:07NPAQ630
書道やってたから中学生になって草書をやる事になって
自分の苗字を草書で書いたんだけど、
それがお歴々の集う本部みたいなところに送られたら
似てるけど違う苗字で登録されたんだよな
0072名無しさん@1周年
垢版 |
2019/07/15(月) 22:24:13.94ID:5pWmRgWZ0
色々解読できてない古文書や文字をAIで
解読できるのかなあ?
0073名無しさん@1周年
垢版 |
2019/07/15(月) 22:25:55.90ID:44FrtRAs0
東証一部管理職だけど何言ってるかわからない。結論から言え。結論。
お前はコミュニティ不足だ。
0076名無しさん@1周年
垢版 |
2019/07/15(月) 22:28:53.52ID:e57nCg0b0
>>56
あかよろし 
「加」じゃなくて「可」をもとにしたひらがな。変態。
0077名無しさん@1周年
垢版 |
2019/07/15(月) 22:29:05.75ID:J3JItdvj0
>>73
この文章は結論が不明確だが、だいたいの趣旨はわかる
お前の言語理解能力が欠落しているだけ
0078名無しさん@1周年
垢版 |
2019/07/15(月) 22:30:30.77ID:zZDu654d0
ある文字と特定のパターンの時に朝鮮という文字が付け加えられるんだろ
0079名無しさん@1周年
垢版 |
2019/07/15(月) 22:32:56.36ID:nJ0UEPJj0
解読できても俺らのご先祖様だから
しょーもないことしか書いてないんだろうな(´・ω・`)
0082名無しさん@1周年
垢版 |
2019/07/15(月) 22:36:51.45ID:yPPQ3XH10
平仮名主体の出版物ならわりと読みやすいんだけどな
例えば葛飾北斎が絵も文も手がけた高尚な芸術作品の一部を読み下すと
https://i.imgur.com/UZDynHj.jpg
数えで13歳のおさねが両親の行為をのぞき見る場面

おさねはこの風情を見てくわっとのぼせ顔は紅のごとくにて
めめっこの中は火のようになって堪えられねば、中指にてめめっこの内をそちこちとかき回せしが
思わず総身がぞっとしてどうも言われぬ心持ち、腰がむず痒くなるよと見えしが
白水のごとき淫水がピョッピョッピョッと弾き出して、気の行くという事をこの時初めて覚えける
0083名無しさん@1周年
垢版 |
2019/07/15(月) 22:37:14.06ID:Ko9yly3U0
古文書を読めないということは、過去の知的財産が活かされてないということだから勿体ない。
くずし字を学ぶということが伝統の継承そのものだな。
0084名無しさん@1周年
垢版 |
2019/07/15(月) 22:41:08.01ID:144wWHRx0
>>1

こいつら南北朝鮮人の卑劣さは、チョンポップの人気偽装の手口にあらわれているからな

サクラの在日朝鮮人を観客役として大量動員した人気偽装コンサート、
日本人になりすました人気偽装カキコミ、
パンストを被ったような朝鮮顔の過剰整形・厚化粧、
ユーチューブの再生連打、「いいね!」連打は、
朝鮮人がいつもやっている汚い手口だからな。

韓流アピールしている人のほとんどが在日朝鮮人だってことはバレているから。
だいぶ以前から在日企業や在日学生、在日系メディアを総動員した人気偽装をやっている。


【韓流】やはり、K−POPチケットを買っていたのは日本人ではなく在日朝鮮人たちだった[2012/7/6]
https://s.webry.info/sp/14819219.at.webry.info/201201/article_8.html
.
0085名無しさん@1周年
垢版 |
2019/07/15(月) 22:41:30.97ID:nV38qAIQ0
昔の人って草書体読めたの?現代人からすると汚い字にしか見えない
0087名無しさん@1周年
垢版 |
2019/07/15(月) 22:43:38.57ID:M53ttr4R0
>>79
あの、膨大な文書群があってまるで解読されていないジャンルに
江戸時代の市井の人士が書いた随筆ってジャンルがあるんだけどw
これはまあ相当くだらないことしか書かれてないだろうと言われているねwww
そりゃまあ23世紀の歴史学者が前々世紀初頭の2ちょんねるのカキコを
精読しるって言われたら、そりゃうんざりするよなwww

>>57
そうだよ? 当然じゃないか
偉大なる大韓が宇宙の起源。そうだね。
それの何が不思議なの?www
0088名無しさん@1周年
垢版 |
2019/07/15(月) 22:43:41.25ID:f1JQ/yNY0
>現代の漢字に変換されたのは、ごく一部の文字だけです。手書きで言語を転写するには数百年が必要です。
何を言ってるんだ?この人は
メソアメリカの絵文字か何かと勘違いしてないか?
0089名無しさん@1周年
垢版 |
2019/07/15(月) 22:47:19.49ID:LK1Jz6100
>>9
朝鮮語すらすら読めそう
0090名無しさん@1周年
垢版 |
2019/07/15(月) 22:47:43.11ID:NK1BW7oX0
ご先祖さんのミミズの這った字を、現代語に翻訳しようって企画?
0093名無しさん@1周年
垢版 |
2019/07/15(月) 22:54:29.62ID:tRGPiG5G0
>>9
血のメグリ悪いなお前

英語話者がネットで発言するときは
「全世界に向けて発言してる」
くらいのこと思ってるから
0094名無しさん@1周年
垢版 |
2019/07/15(月) 22:55:33.45ID:7uiPflPI0
>>50
登記なんかはうんと古い奴は草書で書いてるのがけっこうあって、何書いてあるのか判読するのがたいへんな場合が結構多い
名前は変体仮名も多くて苦労する
変体仮名は戸籍も同じだよね
0095名無しさん@1周年
垢版 |
2019/07/15(月) 22:56:51.46ID:M53ttr4R0
>>92
それは黒やぎ/白やぎメソッドで解決するしかないなw
つまり、、、読まずに食べるwww
そんで返事をかくんだ「さっきの手紙の御用事is何?」ってさw
もちろん書体は天下の狂草体でなwww

狂草体ってわかる?w
草書よりさらにくだいた、もはや書の形をしたアートみたいな奴なw
そういう衒学知恵くらべをやるんだよwww
そもそも草書がそういうものだったんだから
0098名無しさん@1周年
垢版 |
2019/07/15(月) 22:59:19.46ID:Ko9yly3U0
>>91
習うより慣れろというからね。
仮名の読みにはゴールが見えてる感じはするんだが、しかし漢字の解読は先が見えない。
0099名無しさん@1周年
垢版 |
2019/07/15(月) 23:01:38.33ID:EQs/kXrs0
>>98
変体仮名を読む書くトレーニングを積むと、漢字のくずしかたが見えてくる
あとは語彙からあたりをつけることになるかな
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況