【古代文明】AIによって発見された古代日本の文章の秘密
■ このスレッドは過去ログ倉庫に格納されています
今では時代遅れの日本語のスクリプトで書かれた何十億もの古代のテキストの内容は、彼らが持っているかもしれない秘密を解読される事なく、研究者を長い間困惑させました。
くずし字として知られる古代の筆記体は、8世紀から20世紀初頭にかけて使用されましたが、現在、世界の人口の0.01パーセント未満しかそれを読むことができません。
現代の漢字に変換されたのは、ごく一部の文字だけです。手書きで言語を転写するには数百年が必要です。
しかし、日本の人文科学におけるオープンデータのためのROIS-DSセンターCのプロジェクト研究者タリンさんは、突破口の瀬戸際にいます。
現在、くずし筆文字を検索可能な漢字に変換するためのディープラーニング光学文字認識システムの開発に取り組んでいます。
「私たちが文学から日本の文化や歴史について知っていることはすべて手作業で行われています」と彼女は報道に語った。
「[テキスト]を書き起こして特定の単語を検索できる検索エンジンを作成できれば、他のテキストの内容がより迅速にわかります。」
モントリオール学習アルゴリズム研究所の研究者であるアレクス氏はこのプロジェクトを支援しており、GoogleのAI技術サポートと、国立文学研究所の17〜19世紀の書籍のラベル付きデータセットは、機械学習プログラムが4000以上の異なる文字をデコードします。
「機械学習プログラムを開始するときはいつでも、本当に簡単なことから始めたいので、正しいことをしていることを確認することができ、それほど難しいことではありません」
「最初の繰り返しで、文字通り1文字を検出し、それは徐々に最大400文字、その後4000文字まで移動しました。それは絶えず改善しており、まだ進歩の余地があります。」
タリンさんは、このモデルは1ページのテキストを2秒で解読でき、平均精度は85%であると語った。
「日本語の問題は、さまざまな文字が沢山あるということです。機械が学習するのに十分なサンプルを見つけることはできません(100パーセントの精度で十分です)」と彼女は言いました。
「私が感心したことの1つは、モデルが文字と画像のどちらであるかを区別できることです。イラストは文字に近く見えますが、スキップしても十分に賢いことに驚きました。
「人間と機械のコラボレーションが増えると、正確性はずっと高くなると考えられます」
google翻訳
https://www.9news.com.au/technology/artificial-intelligence-ancient-japanese-kuzushiji-texts-being-decoded-by-ai-google-machine-learning-tech-news-update/18669e01-e7f7-4ff4-b30d-885549a7a952
ひらがななのに読みづらい
https://imageresizer.static9.net.au/YE4DxQKW65F55wLgVz2uRCE2Oy0=/1200x0/smart/http%3A%2F%2Fprod.static9.net.au%2Ffs%2F6ce9f4ef-9b23-49a3-a7f5-cd1437d4046b
一般的日本人は右は読めるが左は読めない
https://imageresizer.static9.net.au/MfHQ11YGjsAe9h9RVuQ-f56BRi4=/1200x0/smart/http%3A%2F%2Fprod.static9.net.au%2Ffs%2F743ea959-ce27-4a4b-9f8c-527e21778c6d Google翻訳、頭悪すぎて読む気にすらならない♪
言ってるほど仕事出来てないと思うわ♪ 日本語が翻訳調で意味がわかりづらいけど
古文書を機会が読んでくれるわけね
一般家庭や神社等に伝わる古文書もコレで読んだり残すことができたら後々役立つね 英語の筆記体も教えろよ
古い手書きの英文が読めなくなる >現在、世界の人口の0.01パーセント未満しか
あの史料のニョロニョロ文字の可読性をはかるのに
分母は世界人口と来たかw それはまた大きく出たなア。
そりゃまああんなの読めるのは世界人口の0..01%をきるよな
世界人口の0.01%っていくつだ? ざっくり70億? その1万分の1?
ええと70万人? そりゃまあ下回るよなあwww
で、自称愛国者のネトウヨくんは当然ああいうの悉皆読めるんだよね?w
え? 無理? 無理だろう。そもそも現代日本語の活字だって読めないんだからwww 文字に起こしたら更に古い時代の変態文学だった
とかか 文字については昨年、弥生時代の硯(すずり)が発見された事により
なんと7世紀からいっきに3世紀まで時間が巻き戻り
日本の文字使用時期は中国(当時は魏)と並んでしまった 崩し字は別にいいんだよ、問題は悪筆の方
書き下しで○とか虫食いになってんのは、おおかた字が汚くて何書いてんだか判らんから >>17
お前らは戦前にやっと文字を使い始めただろ 役所の仕事って窓口対応含めてAIで良いよね
タバコ屋みたいなこといつまでやってんだって感じ 黄表紙なんかだと割りと読みやすいんだけどな
漢字が入るのとか江戸時代前期のになると読めない >>9
お前の文章がさっぱりわからんw
誰に向けて何を言いたいんだ? フォントやスキャンした活字を完璧にテキストにしてくれるOCRソフトはなに? Googleは翻訳とかどうでもいいから
マップのナビをまともに使えるレベルにしろ >>26
それ翻訳すると「ネトウヨネトウヨバーカバーカ」だから・・・。
つまり、大した事言ってないのさ(笑) 一昔前までコピー機がなかったなんて信じられない
どうやって書類配ったりしてたんだろ うちの元神主さんは平仮名の大家だった…本物やで日展の審査員やで
もらった盆暮れの挨拶 年賀状、、読めね マッタク読めねえ
ソコは年賀状だからとアタリをつけて解読するんや、定型文が多いからな、、そしたらナントカ読めた >>26
その煽りはね、非常に重要な示唆にとんでいるなw
つまりは、古文書、古文書なんて大抵は現代人に素読は不可能なもんだが
それはいったい誰に向けて何のために書かれたか、
これって結構わからないもんなんだよwww
他ならぬウリだってなんでまあこうも毎回毎回誰にあててるかわからぬ駄文を
結構な時間を割いて書き連ねているか、これは本当にわからない。
まあ強いて言えば詩神ムーサかアポロかディオニュソスか
とにかくダイモーンの導きによって書いているとしか言いようがないwww
え? 意味が分からない? わからなくていいんだよ。
所詮2ちょんの端書など、民の声。民の声とは天の声。
天の声にもたまには変な声があるなあ、とは福田赳夫もいうとるからねwww >>33
ガリ版 青焼き、ガキの頃はガリ版刷りのテストのお世話になったね >>7
正直江戸後期以前の古文書の文字は例外を除いて教科書の内容で十分理解できる。
つまり、これは歴史学の方からの要請ではない。 ハーバードの美人女性研究員の人がスラスラ読んでてビックリだったな。
ドキュメンタリーの内容はまったく思い出せないが。 >>15
残念。
85パーセントの精度は文章を読む上では全く不十分。
つまり役立たず。 書き文字で凄いのは戸籍謄本 古い奴は手書きだよ 無茶苦茶小さな文字でしかも楷書で書かれているからな
今まで見た中では失敗して訂正したのは一つも無かった 凄い精神力だよ おとこもすなるにっきというものをおんなもせんと
日本人のお茶目っぷりがバレてしまふ 俺が書いたメモとかも数千年後にこうやって解読されるんだろうな 0.01%でも読める人は居るのだから
その人に解読してもらえばいいだろ?
その人からAIへ教育してもらってもいい >>17
そりゃ宇宙の起源が韓国(笑)だもんなwwwwww 学生の頃に教わってたドイツ人の先生は
日本語の草書が読めたんでびっくりした。
日本語は草書が読めないといけないものだと
勘違いしていて、日本に赴任する前に猛勉強
したんだと。 江戸時代の万葉仮名読みを思い出すな
当て字いっぱいある中で当てて行ったんだよね >>51
誤)おとこ / にっき / という
正)をとこ / にき / といふ
末尾は
おんなもしてみむとてするなり >>48
左は『女大学』だな
女の心得を説いた江戸時代の本
右は分からん 変体仮名をAIって無理あるんじゃないかなぁ…
候文ならまあ行けるかもしれないけど 一番下の写真、左。
男子(なんじ)よりも親
の教(をしへ)ゆるかせに
すべからず父母(ふ?)
寵愛(ちやうあい)して恣(ほしひまま)に
育(そだて)ぬれば夫(をつと)の
家(いへ)に行(ゆき)て必(かならず)気(き)
随(ずひ)にて夫(をつと)に疎(うと)
まれ又は舅(しうと)の誨(をしへ)
正(ルビ?)ければ難(がたく)堪(たえ)
思ひ舅(しうと)を恨(うらみ)誹(そし)り
男子「だん」か「なん」か判別不能
父母「ふぼ」か「ふも」か判別不能 今だったらAIでロゼッタストーンを解読できそう。
研究者がどうしても解読できなかったのに子供が解読したんだよな。 書道やってたから中学生になって草書をやる事になって
自分の苗字を草書で書いたんだけど、
それがお歴々の集う本部みたいなところに送られたら
似てるけど違う苗字で登録されたんだよな 色々解読できてない古文書や文字をAIで
解読できるのかなあ? 東証一部管理職だけど何言ってるかわからない。結論から言え。結論。
お前はコミュニティ不足だ。 >>56
あかよろし
「加」じゃなくて「可」をもとにしたひらがな。変態。 >>73
この文章は結論が不明確だが、だいたいの趣旨はわかる
お前の言語理解能力が欠落しているだけ ある文字と特定のパターンの時に朝鮮という文字が付け加えられるんだろ 解読できても俺らのご先祖様だから
しょーもないことしか書いてないんだろうな(´・ω・`) >>67
「正」のルビは「たゞ」
「た」は「多」の草体 平仮名主体の出版物ならわりと読みやすいんだけどな
例えば葛飾北斎が絵も文も手がけた高尚な芸術作品の一部を読み下すと
https://i.imgur.com/UZDynHj.jpg
数えで13歳のおさねが両親の行為をのぞき見る場面
おさねはこの風情を見てくわっとのぼせ顔は紅のごとくにて
めめっこの中は火のようになって堪えられねば、中指にてめめっこの内をそちこちとかき回せしが
思わず総身がぞっとしてどうも言われぬ心持ち、腰がむず痒くなるよと見えしが
白水のごとき淫水がピョッピョッピョッと弾き出して、気の行くという事をこの時初めて覚えける 古文書を読めないということは、過去の知的財産が活かされてないということだから勿体ない。
くずし字を学ぶということが伝統の継承そのものだな。 >>1
こいつら南北朝鮮人の卑劣さは、チョンポップの人気偽装の手口にあらわれているからな
サクラの在日朝鮮人を観客役として大量動員した人気偽装コンサート、
日本人になりすました人気偽装カキコミ、
パンストを被ったような朝鮮顔の過剰整形・厚化粧、
ユーチューブの再生連打、「いいね!」連打は、
朝鮮人がいつもやっている汚い手口だからな。
韓流アピールしている人のほとんどが在日朝鮮人だってことはバレているから。
だいぶ以前から在日企業や在日学生、在日系メディアを総動員した人気偽装をやっている。
【韓流】やはり、K−POPチケットを買っていたのは日本人ではなく在日朝鮮人たちだった[2012/7/6]
https://s.webry.info/sp/14819219.at.webry.info/201201/article_8.html
. 昔の人って草書体読めたの?現代人からすると汚い字にしか見えない >>79
あの、膨大な文書群があってまるで解読されていないジャンルに
江戸時代の市井の人士が書いた随筆ってジャンルがあるんだけどw
これはまあ相当くだらないことしか書かれてないだろうと言われているねwww
そりゃまあ23世紀の歴史学者が前々世紀初頭の2ちょんねるのカキコを
精読しるって言われたら、そりゃうんざりするよなwww
>>57
そうだよ? 当然じゃないか
偉大なる大韓が宇宙の起源。そうだね。
それの何が不思議なの?www >現代の漢字に変換されたのは、ごく一部の文字だけです。手書きで言語を転写するには数百年が必要です。
何を言ってるんだ?この人は
メソアメリカの絵文字か何かと勘違いしてないか? ご先祖さんのミミズの這った字を、現代語に翻訳しようって企画? 実家から草書体の筆書きで手紙来るんだが読めない・・ >>9
血のメグリ悪いなお前
英語話者がネットで発言するときは
「全世界に向けて発言してる」
くらいのこと思ってるから >>50
登記なんかはうんと古い奴は草書で書いてるのがけっこうあって、何書いてあるのか判読するのがたいへんな場合が結構多い
名前は変体仮名も多くて苦労する
変体仮名は戸籍も同じだよね >>92
それは黒やぎ/白やぎメソッドで解決するしかないなw
つまり、、、読まずに食べるwww
そんで返事をかくんだ「さっきの手紙の御用事is何?」ってさw
もちろん書体は天下の狂草体でなwww
狂草体ってわかる?w
草書よりさらにくだいた、もはや書の形をしたアートみたいな奴なw
そういう衒学知恵くらべをやるんだよwww
そもそも草書がそういうものだったんだから >>91
習うより慣れろというからね。
仮名の読みにはゴールが見えてる感じはするんだが、しかし漢字の解読は先が見えない。 >>98
変体仮名を読む書くトレーニングを積むと、漢字のくずしかたが見えてくる
あとは語彙からあたりをつけることになるかな ■ このスレッドは過去ログ倉庫に格納されています