X



【AI】AIで複数の同時音声を分離、再現率は脅威の90% 深層学習で音声の分け方を学ぶ: [無断転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
0001ののの ★
垢版 |
2017/05/29(月) 20:44:06.12ID:CAP_USER9
http://eetimes.jp/ee/articles/1705/29/news084.html

三菱電機は研究成果披露会で、同社独自のAI技術「ディープクラスタリング」を用いた音声分離技術を発表した。この技術では、マイク1本で録音した複数話者の同時音声を分離し、きれいに再現できる。従来の技術では原音再現率が51%だったが、三菱電機の音声分離技術の場合90%以上となる。
[辻村祐揮,EE Times Japan]
答えではなく、解き方を学ぶ

 スマートフォンやカーナビなどの音声認識機能は、雑音や複数の人の声が混じると正しく機能しないことが多い。音を聞き分けて再現する技術自体は既に存在するが、精度の面でまだ十分とはいえない。マイク1本で取得した音声を分離し再現する技術の場合は特にだ。

 三菱電機が同社独自のAI技術「ディープクラスタリング」を用い、音声分離技術を開発したのにはこのような背景がある。三菱電機は2017年5月24日の研究成果発表会で、マイク1本で録音した複数話者の同時音声を分離し、きれいに再現する様子を披露した。

https://youtu.be/KC_xJpF1R4E
ディープクラスタリングで2者の同時音声を分離するデモ
 ディープクラスタリングとは、ディープラーニングとクラスタリングを組み合わせたものだ。三菱電機が開発した音声分離技術は、複数話者の同時音声の成分をクラスタリング(分類)し、分類した成分をそれぞれのクラスタで合成することで、各話者の音声を再現する。音声成分の分類は、抑揚や音の流れといった音声特徴の類似をもとに行う。

 一方、特徴の類似をもとに音声を分離する“仕方”を学ぶのがディープラーニングの役目だ。人工知能を活用した従来の音声分離システムの場合、音声の特徴がどの話者に帰属するかを学んでいた。つまり、答えを丸暗記していたのだ。そのため、学習済みでない音声の識別ができなかった。しかし、三菱電機の音声分離技術はディープラーニングで、音声の特徴を分類する仕方そのものを学ぶ。答えではなく解き方を学ぶため、初めて対応する音声でも的確に処理することができる。

http://image.itmedia.co.jp/ee/articles/1705/29/Yt_20170529_mitu.jpg
ディープラーニングとクラスタリングによる音声分離、再現の説明図 出典:三菱電機
 三菱電機の音声分離技術は、音声を話者に結び付けて学ぶわけではないので、話者の性別や言語に依存しない。いかなる話者相手でも、2者の同時音声を分離した場合、90%以上の原音再生率を発揮できる。従来の技術では51%だった。一方、3者の同時音声を分離した場合、原音再生率は80%以上となる。また、学ばせさえすれば、人の声だけでなく雑音の分離も可能だ。

 三菱電機の説明員は、「ディープクラスタリングをカーナビの音声認識機能に応用すれば、音声入力中に同乗者の声や車の走行音が混じったとしても、カーナビはドライバーの音声だけを分離して認識できるようになる」と語っている。
0002名無しさん@1周年
垢版 |
2017/05/29(月) 20:45:11.75ID:behUnDL50
カクテルパーティ効果
0003名無しさん@1周年
垢版 |
2017/05/29(月) 20:47:35.79ID:5BDwdqUj0
これで音声認識もわざわざマイク近くで喋んなくても、雑音除去して自然な声を聞き分けれるって事?
これって、かなり凄いんじゃない?
0004名無しさん@1周年
垢版 |
2017/05/29(月) 20:47:54.12ID:fH5sDXO/0
能無し三菱電機
0005名無しさん@1周年
垢版 |
2017/05/29(月) 20:50:23.73ID:C1ZfLk1p0
声域分離でしょ
ナビは指向性マイクをハンドルに付けるだけでいいかも
0007名無しさん@1周年
垢版 |
2017/05/29(月) 20:51:47.97ID:fmCpJNKN0
事実上使い物にならない技術w
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況