【グーグル】Googleが第2世代TPUを発表、処理性能は180TFLOPS 機械学習向けプロセッサの新版 [無断転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
http://eetimes.jp/ee/articles/1705/30/news104.html
2017年05月30日 16時20分 更新
Googleは、機械学習(マシンラーニング)向けのプロセッサ「TPU(Tensor Processing Unit)」の第2世代を発表した。トレーニングと推論の両方に最適化されたもので、処理性能は180TFLOPSになるという。
[Rick Merritt,EE Times]
トレーニングと推論向け
Googleは2017年5月17日(米国時間)、第2世代の「Tensor Processing Unit(TPU)」と、法人顧客や研究者に向けたクラウドサービスで利用できるマシンラーニング(機械学習)用ASIC「Cloud TPU」を発表した。Cloud TPUは1枚のボードに4つのプロセッサを搭載していて、同ボードの処理性能は180TFLOPSになる。トレーニングと推論の両方のタスクに使用することが可能だという。
Googleは今回の取り組みにより、機械学習への関心の高まりを利用して、自社のクラウドサービスの利用を促進したい考えだ。さらに、新しいチップでサポート可能な唯一のソフトウェアインタフェースである、TensorFlowフレームワークのユーザー数を増加させたいという狙いもあるようだ。
Googleは、「浮動小数点演算が可能なCloud TPUは、トレーニングと推論の両方に最適化されており、実装を簡素化できる」と述べる。第1世代のTPUは整数演算を使用し、推論のみをターゲットとしていた。
上述した通り、Cloud TPUは4つのチップを1枚の専用アクセラレーターボード上に搭載している。このボードを64枚接続した「TPUポッド」は、11.5PFLOPSの処理性能を実現するという。
http://image.itmedia.co.jp/ee/articles/1705/30/mm170530_google1.jpg
「Cloud TPU」
Googleでシニアフェローを務めるJeff Dean氏は、記者会見で、「第2世代のTPUの開発メンバーは、第1世代の時とほぼ同じである。第1世代TPUは規模が小さかったため、第2世代の方が完成度の高いシステムだといえる。推論に関しては、1つのチップ上で実行可能だが、トレーニングの場合はもっと全体的な考察が必要だ」と述べている。
トレーニングではGPUを上回る
Googleは、「トレーニングに関しては、新型ASICがGPUを優に上回る」と主張する。同社の最新の大規模な言語翻訳モデルでは、既存のトップエンドGPUを32個使用した場合、トレーニングに丸1日を要するが、ポッドの8分の1に相当する8個のTPUを使用すると、同じジョブを6時間で実行することが可能だという。
Googleは、第1世代のTPUの導入を2015年に開始して以来、検索や翻訳、「Googleフォト」など同社のさまざまなクラウドサービスにおいて使用してきた。
GoogleがTPUを最初に発表したのは、同社の開発者向けイベント「Google I/O 2016」(米国カリフォルニア州マウンテンビュー、2016年5月18〜20日)においてである。同社が2017年4月に発表した論文によれば、第2世代TPUは28nmプロセスを適用したチップで、消費電力は40W、動作周波数は700MHzである。主論理ユニットには6万5536個の8ビット乗算累算ユニットと24Mバイトのキャッシュを搭載しているという。
第1世代のTPUは、2015年にGoogleのマシンラーニングジョブに使われたベンチマークで、IntelのサーバCPU「Haswell」やNVIDIAのGPU「K80」に比べて処理速度が15〜30倍、ワット当たり性能が30〜80倍とされている。
(中略)
【翻訳:滝本麻貴、田中留美、編集:EE Times Japan】
原文へのリンク http://www.eetimes.com/document.asp?doc_id=1331753&page_number=1 (つづき)
http://eetimes.jp/ee/articles/1705/30/news104_2.html
内部構造は明らかにせず
Googleは、新しいTPUの内部構造やシステム、性能の詳細は明らかにしていない。だが、公表された同チップの仕様や写真を見ると、興味深い疑問が生じる。
同チップのトレーニング性能は、推論性能と同様に、浮動小数点への移行が必要となる。だが、それによって、第1世代のTPUでは40Wだった消費電力が少なくとも2倍に増加する可能性がある。新TPUは、大型ファンとヒートシンクを搭載して、放熱性を限界まで高めていると考えられる。
性能を倍増するために、Goolgeは単に、第1世代のTPUに使われていた積和演算ブロックとキャッシュの数を増やしただけかもしれないが、第1世代のチップは既に、IntelのサーバCPUと並ぶ、24Mバイトのキャッシュを搭載している。新TPUには、チップのヒートシンクの下にHBM(High Bandwidth Memory)メモリスタックが搭載されている可能性もある。
Googleのシステム設計には、超高速帯域か重要なオンチップメモリのいずれか、もしくはその両方が必要になる。だが、写真を見ると、DRAMは搭載されていないことが分かる。
同システムがどのようなメモリやI/Oを使用しているかについては不明だが、ボードとラックに何らかの変更があったことは間違いない。
Cloud TPUは、大型のヒートシンクを1基、ミドルサイズを2基、小型を8基搭載し、フラッシュメモリ、インターコネクト、スイッチやその他の非公開の素子の放熱を行っている。下記の写真はTPUポッドである。
http://image.itmedia.co.jp/ee/articles/1705/30/mm170530_google2.jpg
Cloud TPUを64基接続した「TPUポッド」(クリックで拡大)
Dean氏は、「Googleのさまざまなマシンラーニングモデルは既に、Cloud TPU上で動作している」と述べている。ただし、一部のトレーニングはまだ、GPUで行っているという。同氏は、「ゆくゆくはTPUでより多くのトレーニングを行いたいと考えている」と述べている。
開発者は、GoogleのCloudプラットフォームの新しいアルファプログラムを介して、TPU上でソフトウェアを稼働できるようになる。研究者は、1000基のCloud TPUから成るクラスタ「TensorFlow Research Cloud」に無料でアクセスできるという。ただし、研究成果を公開し、少なくともオープンソースの関連ソフトウェアとしてのリリースを検討することに同意することが求められる。
http://image.itmedia.co.jp/ee/articles/1705/30/mm170530_google3.jpg
Cloud TPUには大きなヒートシンクやファンが付いている(クリックで拡大)
TensorFlowフレームワークの新版も
Googleは、TensorFlowフレームワークのバージョン1.2も発表した。同フレームワークには、ニューラルネットワークに関する知識が豊富ではないユーザーもマシンラーニングを活用しやすくなるような新API(Application Programming Interface)が搭載されているという。
米スタンフォード大学の教授で、Googleのマシンラーニング部門のチーフサイエンティストであるFei-fei Li氏は、「私は数カ月前にGoogleに入ったが、Googleでは、習熟度に関係なく誰もがAIを活用して革新技術の開発や問題の解決を行うことができる」と述べている。
実際に、スタンフォード大学のデータサイエンスイニシアチブは、マシンラーニングの普及を目標の1つに掲げている。その他の企業や研究機関も、同じ目標に向かって商用サービスの展開を急いでいる。
Microsoft ResearchのリーダーでFPGAを活用したマシンラーニング研究を率いるPeter Lee氏は、「MicrosoftのCEO(最高経営責任者)を務めるSatya Nadella氏に会うといつも、AIツールの普及を急ぐよう叱咤激励される」と話している。
Googleは、今後もハードウェアに依存しないスタンスを取る。ユーザーは、TPUサーバ、x86サーバ、GPUサーバのいずれにおいてもマシンラーニングを実行できるようになるという。Li氏によると、Googleの既存のマシンラーニングサービスでジョブを稼働している企業は数社あり、そのうちの1社が米国のオークションサイトeBayだという。 細かいことはどうでもいいからPS5くらいには搭載させといて >>3
んな訳あるか
俺が検索したワードや端末位置情報もこいつで処理されるんだからな デデンデンデデン
デデンデンデデン
のちのスカトロネットである。あーっ! ほほー、
インテルやARMは、蚊帳の外?
今後は、グーグルvsエヌヴィディアvsアップル、の競争が
酸業界や学会を左右しそうだね。 K80の消費電力は300Wに対しこっちは40Wか?
マジでEVに積むADAS用を意識してんのか? >>10
インテルが今後ヤバいんじゃないかと
ATIを傘下にしたAMDがまさかの逆転とか
当面プロセッサコアや演算ユニットの並列化が続くんだろうね >>3
なんでこの板に立てるのか
アホ記者増えすぎ 最近機械翻訳の精度向上が著しいのはこいつのおかげか
えらい背が高いからスタックDRAM使ってるのかな Googleも半導体に乗り出したか
ただのIT企業じゃなくなってきたな 創価学会は犯罪集団
ドトールコーヒーは学会員だ
集団ストーカー
いつくしみ深き 友なるイエスは
罪とが憂いを とり去りたもう
こころの嘆きを 包まず述べて
などかは下ろさぬ 負える重荷を
いつくしみ深き 友なるイエスは
われらの弱きを 知りて憐れむ
悩みかなしみに 沈めるときも
祈りにこたえて 慰めたもう
hjっkbvhっjbhっjhjっhghj サーバ用のやつだろ?
一般にも販売されてるみたいだけど この前まで1テラフロップですげーとか言ってなかったっけ? GoogleやAmazo、、肥大化すると、
世界中で、特選禁止法の標的になるな。 > このボードを64枚接続した「TPUポッド」は、11.5PFLOPSの処理性能を実現するという。
(´-`).。oO(オイラが学生だった頃は世界最速のスパコンがひと桁GFLOPSだった…) >>16
背が高いってw
どう見てもそりゃヒートシンクだろ。 >>24
SX-2使ってたわ
1.5GFLOPS
CRAY-1なんて100MIPSくらいだったような これ誤訳
6時間じゃなくて12時間
in an afternoonがなんで6時間になるんだよw トレーニングが必要なくなったときが本物
トレーニングのために機能を割いてるからある意味では無駄が多い ノイマン型が苦手とする、量子コンピューティングが解決出来る得意問題はまた別だからな >>31
だよね、これ6時間だよね
pcwatchじゃ半日となってて気になった CPUやGPUはぼんやりと理解してるんだが
APUやらTPUやらSoCはもうわからなくなってきた >>28
in an afternoon
仕事上で口語的に使うならだいたい3〜4時間くらい
一日の中で区分けするなら最大6時間
元のtech crunchおよびGoogle blogsの文章では
a full day(GPU処理) vs in an afternoon(TPU処理)
となってるから24時間(丸一日) vs 6時間とした方が適切
半日(12時間)としてるPCwatchや産経bizが間違いだと思われる ■ このスレッドは過去ログ倉庫に格納されています