【ＡＩ】AIで複数の同時音声を分離、再現率は脅威の90％　深層学習で音声の分け方を学ぶ： [無断転載禁止]©2ch.net

**ののの ★** · 2017/05/29(月) 20:44:06.12

http://eetimes.jp/ee/articles/1705/29/news084.html

三菱電機は研究成果披露会で、同社独自のAI技術「ディープクラスタリング」を用いた音声分離技術を発表した。この技術では、マイク1本で録音した複数話者の同時音声を分離し、きれいに再現できる。従来の技術では原音再現率が51％だったが、三菱電機の音声分離技術の場合90％以上となる。
[辻村祐揮，EE Times Japan]
答えではなく、解き方を学ぶ

　スマートフォンやカーナビなどの音声認識機能は、雑音や複数の人の声が混じると正しく機能しないことが多い。音を聞き分けて再現する技術自体は既に存在するが、精度の面でまだ十分とはいえない。マイク1本で取得した音声を分離し再現する技術の場合は特にだ。

　三菱電機が同社独自のAI技術「ディープクラスタリング」を用い、音声分離技術を開発したのにはこのような背景がある。三菱電機は2017年5月24日の研究成果発表会で、マイク1本で録音した複数話者の同時音声を分離し、きれいに再現する様子を披露した。

https://youtu.be/KC_xJpF1R4E
ディープクラスタリングで2者の同時音声を分離するデモ
　ディープクラスタリングとは、ディープラーニングとクラスタリングを組み合わせたものだ。三菱電機が開発した音声分離技術は、複数話者の同時音声の成分をクラスタリング（分類）し、分類した成分をそれぞれのクラスタで合成することで、各話者の音声を再現する。音声成分の分類は、抑揚や音の流れといった音声特徴の類似をもとに行う。

　一方、特徴の類似をもとに音声を分離する“仕方”を学ぶのがディープラーニングの役目だ。人工知能を活用した従来の音声分離システムの場合、音声の特徴がどの話者に帰属するかを学んでいた。つまり、答えを丸暗記していたのだ。そのため、学習済みでない音声の識別ができなかった。しかし、三菱電機の音声分離技術はディープラーニングで、音声の特徴を分類する仕方そのものを学ぶ。答えではなく解き方を学ぶため、初めて対応する音声でも的確に処理することができる。

http://image.itmedia.co.jp/ee/articles/1705/29/Yt_20170529_mitu.jpg
ディープラーニングとクラスタリングによる音声分離、再現の説明図出典：三菱電機
　三菱電機の音声分離技術は、音声を話者に結び付けて学ぶわけではないので、話者の性別や言語に依存しない。いかなる話者相手でも、2者の同時音声を分離した場合、90％以上の原音再生率を発揮できる。従来の技術では51％だった。一方、3者の同時音声を分離した場合、原音再生率は80％以上となる。また、学ばせさえすれば、人の声だけでなく雑音の分離も可能だ。

　三菱電機の説明員は、「ディープクラスタリングをカーナビの音声認識機能に応用すれば、音声入力中に同乗者の声や車の走行音が混じったとしても、カーナビはドライバーの音声だけを分離して認識できるようになる」と語っている。

**名無しさん＠１周年** · 2017/05/29(月) 20:45:11.75

カクテルパーティ効果

**名無しさん＠１周年** · 2017/05/29(月) 20:47:35.79

これで音声認識もわざわざマイク近くで喋んなくても、雑音除去して自然な声を聞き分けれるって事？
これって、かなり凄いんじゃない？

**名無しさん＠１周年** · 2017/05/29(月) 20:47:54.12

能無し三菱電機

**名無しさん＠１周年** · 2017/05/29(月) 20:50:23.73

声域分離でしょ
ナビは指向性マイクをハンドルに付けるだけでいいかも

**名無しさん＠１周年** · 2017/05/29(月) 20:50:26.77

聖徳太子かよ

**名無しさん＠１周年** · 2017/05/29(月) 20:51:47.97

事実上使い物にならない技術ｗ

**名無しさん＠１周年** · 2017/05/29(月) 20:52:04.82

何年か前にアシモが実演してなかったか

**名無しさん＠１周年** · 2017/05/29(月) 20:53:15.09

光ケーブルの多重伝送みたいなもんじゃねえか

**名無しさん＠１周年** · 2017/05/29(月) 20:53:47.10

黒柳徹子と平野レミが同時に喋っても即テロップ化