【グーグル】Googleが第2世代TPUを発表、処理性能は180TFLOPS 　機械学習向けプロセッサの新版 [無断転載禁止]©2ch.net

**ののの ★** · 2017/05/30(火) 20:00:03.81

http://eetimes.jp/ee/articles/1705/30/news104.html

2017年05月30日 16時20分更新
Googleは、機械学習（マシンラーニング）向けのプロセッサ「TPU（Tensor Processing Unit）」の第2世代を発表した。トレーニングと推論の両方に最適化されたもので、処理性能は180TFLOPSになるという。
[Rick Merritt，EE Times]

トレーニングと推論向け

　Googleは2017年5月17日（米国時間）、第2世代の「Tensor Processing Unit（TPU）」と、法人顧客や研究者に向けたクラウドサービスで利用できるマシンラーニング（機械学習）用ASIC「Cloud TPU」を発表した。Cloud TPUは1枚のボードに4つのプロセッサを搭載していて、同ボードの処理性能は180TFLOPSになる。トレーニングと推論の両方のタスクに使用することが可能だという。

　Googleは今回の取り組みにより、機械学習への関心の高まりを利用して、自社のクラウドサービスの利用を促進したい考えだ。さらに、新しいチップでサポート可能な唯一のソフトウェアインタフェースである、TensorFlowフレームワークのユーザー数を増加させたいという狙いもあるようだ。

　Googleは、「浮動小数点演算が可能なCloud TPUは、トレーニングと推論の両方に最適化されており、実装を簡素化できる」と述べる。第1世代のTPUは整数演算を使用し、推論のみをターゲットとしていた。

　上述した通り、Cloud TPUは4つのチップを1枚の専用アクセラレーターボード上に搭載している。このボードを64枚接続した「TPUポッド」は、11.5PFLOPSの処理性能を実現するという。

http://image.itmedia.co.jp/ee/articles/1705/30/mm170530_google1.jpg
「Cloud TPU」

　Googleでシニアフェローを務めるJeff Dean氏は、記者会見で、「第2世代のTPUの開発メンバーは、第1世代の時とほぼ同じである。第1世代TPUは規模が小さかったため、第2世代の方が完成度の高いシステムだといえる。推論に関しては、1つのチップ上で実行可能だが、トレーニングの場合はもっと全体的な考察が必要だ」と述べている。

トレーニングではGPUを上回る

　Googleは、「トレーニングに関しては、新型ASICがGPUを優に上回る」と主張する。同社の最新の大規模な言語翻訳モデルでは、既存のトップエンドGPUを32個使用した場合、トレーニングに丸1日を要するが、ポッドの8分の1に相当する8個のTPUを使用すると、同じジョブを6時間で実行することが可能だという。

　Googleは、第1世代のTPUの導入を2015年に開始して以来、検索や翻訳、「Googleフォト」など同社のさまざまなクラウドサービスにおいて使用してきた。

　GoogleがTPUを最初に発表したのは、同社の開発者向けイベント「Google I/O 2016」（米国カリフォルニア州マウンテンビュー、2016年5月18～20日）においてである。同社が2017年4月に発表した論文によれば、第2世代TPUは28nmプロセスを適用したチップで、消費電力は40W、動作周波数は700MHzである。主論理ユニットには6万5536個の8ビット乗算累算ユニットと24Mバイトのキャッシュを搭載しているという。

　第1世代のTPUは、2015年にGoogleのマシンラーニングジョブに使われたベンチマークで、IntelのサーバCPU「Haswell」やNVIDIAのGPU「K80」に比べて処理速度が15～30倍、ワット当たり性能が30～80倍とされている。

（中略）

【翻訳：滝本麻貴、田中留美、編集：EE Times Japan】

原文へのリンク　http://www.eetimes.com/document.asp?doc_id=1331753&;page_number=1

**ののの ★** · 2017/05/30(火) 20:00:51.95

（つづき）

http://eetimes.jp/ee/articles/1705/30/news104_2.html
内部構造は明らかにせず

　Googleは、新しいTPUの内部構造やシステム、性能の詳細は明らかにしていない。だが、公表された同チップの仕様や写真を見ると、興味深い疑問が生じる。

　同チップのトレーニング性能は、推論性能と同様に、浮動小数点への移行が必要となる。だが、それによって、第1世代のTPUでは40Wだった消費電力が少なくとも2倍に増加する可能性がある。新TPUは、大型ファンとヒートシンクを搭載して、放熱性を限界まで高めていると考えられる。

　性能を倍増するために、Goolgeは単に、第1世代のTPUに使われていた積和演算ブロックとキャッシュの数を増やしただけかもしれないが、第1世代のチップは既に、IntelのサーバCPUと並ぶ、24Mバイトのキャッシュを搭載している。新TPUには、チップのヒートシンクの下にHBM（High Bandwidth Memory）メモリスタックが搭載されている可能性もある。

　Googleのシステム設計には、超高速帯域か重要なオンチップメモリのいずれか、もしくはその両方が必要になる。だが、写真を見ると、DRAMは搭載されていないことが分かる。

　同システムがどのようなメモリやI/Oを使用しているかについては不明だが、ボードとラックに何らかの変更があったことは間違いない。

　Cloud TPUは、大型のヒートシンクを1基、ミドルサイズを2基、小型を8基搭載し、フラッシュメモリ、インターコネクト、スイッチやその他の非公開の素子の放熱を行っている。下記の写真はTPUポッドである。
http://image.itmedia.co.jp/ee/articles/1705/30/mm170530_google2.jpg

Cloud TPUを64基接続した「TPUポッド」（クリックで拡大）
　Dean氏は、「Googleのさまざまなマシンラーニングモデルは既に、Cloud TPU上で動作している」と述べている。ただし、一部のトレーニングはまだ、GPUで行っているという。同氏は、「ゆくゆくはTPUでより多くのトレーニングを行いたいと考えている」と述べている。

　開発者は、GoogleのCloudプラットフォームの新しいアルファプログラムを介して、TPU上でソフトウェアを稼働できるようになる。研究者は、1000基のCloud TPUから成るクラスタ「TensorFlow Research Cloud」に無料でアクセスできるという。ただし、研究成果を公開し、少なくともオープンソースの関連ソフトウェアとしてのリリースを検討することに同意することが求められる。

http://image.itmedia.co.jp/ee/articles/1705/30/mm170530_google3.jpg

Cloud TPUには大きなヒートシンクやファンが付いている（クリックで拡大）
TensorFlowフレームワークの新版も

　Googleは、TensorFlowフレームワークのバージョン1.2も発表した。同フレームワークには、ニューラルネットワークに関する知識が豊富ではないユーザーもマシンラーニングを活用しやすくなるような新API（Application Programming Interface）が搭載されているという。

　米スタンフォード大学の教授で、Googleのマシンラーニング部門のチーフサイエンティストであるFei-fei Li氏は、「私は数カ月前にGoogleに入ったが、Googleでは、習熟度に関係なく誰もがAIを活用して革新技術の開発や問題の解決を行うことができる」と述べている。

　実際に、スタンフォード大学のデータサイエンスイニシアチブは、マシンラーニングの普及を目標の1つに掲げている。その他の企業や研究機関も、同じ目標に向かって商用サービスの展開を急いでいる。

　Microsoft ResearchのリーダーでFPGAを活用したマシンラーニング研究を率いるPeter Lee氏は、「MicrosoftのCEO（最高経営責任者）を務めるSatya Nadella氏に会うといつも、AIツールの普及を急ぐよう叱咤激励される」と話している。

　Googleは、今後もハードウェアに依存しないスタンスを取る。ユーザーは、TPUサーバ、x86サーバ、GPUサーバのいずれにおいてもマシンラーニングを実行できるようになるという。Li氏によると、Googleの既存のマシンラーニングサービスでジョブを稼働している企業は数社あり、そのうちの1社が米国のオークションサイトeBayだという。

**名無しさん＠１周年** · 2017/05/30(火) 20:01:46.75

まあ、おまえらには無関係w

**名無しさん＠１周年** · 2017/05/30(火) 20:02:03.55

モノリス

**名無しさん＠１周年** · 2017/05/30(火) 20:07:34.85

細かいことはどうでもいいからPS5くらいには搭載させといて

**名無しさん＠１周年** · 2017/05/30(火) 20:07:45.29

８ビットかよショボいわ

**名無しさん＠１周年** · 2017/05/30(火) 20:08:07.01

>>3
んな訳あるか
俺が検索したワードや端末位置情報もこいつで処理されるんだからな

**名無しさん＠１周年** · 2017/05/30(火) 20:10:27.89

デデンデンデデン
デデンデンデデン

のちのスカトロネットである。あーっ！

**名無しさん＠１周年** · 2017/05/30(火) 20:11:47.85

マシンが自我に目覚めてしまう

**名無しさん＠１周年** · 2017/05/30(火) 20:17:26.61

ほほー、

インテルやARMは、蚊帳の外？

今後は、グーグルvsエヌヴィディアvsアップル、の競争が
酸業界や学会を左右しそうだね。

**名無しさん＠１周年** · 2017/05/30(火) 20:17:32.90

半分だろ

**名無しさん＠１周年** · 2017/05/30(火) 20:20:27.63

K80の消費電力は300Wに対しこっちは40Wか？
マジでEVに積むADAS用を意識してんのか？

**名無しさん＠１周年** · 2017/05/30(火) 20:24:39.88

>>10
インテルが今後ヤバいんじゃないかと
ATIを傘下にしたAMDがまさかの逆転とか

当面プロセッサコアや演算ユニットの並列化が続くんだろうね

**名無しさん＠１周年** · 2017/05/30(火) 20:37:59.26

>>3
なんでこの板に立てるのか
アホ記者増えすぎ

**名無しさん＠１周年** · 2017/05/30(火) 20:41:52.67

ニュース系ならビジ板か科学板のテーマだよな

**名無しさん＠１周年** · 2017/05/30(火) 21:37:51.63

最近機械翻訳の精度向上が著しいのはこいつのおかげか
えらい背が高いからスタックDRAM使ってるのかな

**名無しさん＠１周年** · 2017/05/30(火) 21:38:40.58

Googleも半導体に乗り出したか
ただのIT企業じゃなくなってきたな

**名無しさん＠１周年** · 2017/05/30(火) 23:19:26.32

創価学会は犯罪集団
ドトールコーヒーは学会員だ
集団ストーカー
いつくしみ深き友なるイエスは
罪とが憂いをとり去りたもう
　　こころの嘆きを包まず述べて
　　などかは下ろさぬ負える重荷を
いつくしみ深き友なるイエスは
われらの弱きを知りて憐れむ
　　悩みかなしみに沈めるときも
　　祈りにこたえて慰めたもう
hjっkbvhっjbhっjhjっhghj

**名無しさん＠１周年** · 2017/05/31(水) 00:33:13.12

それでどんなリアルなエロゲーができるん？

**名無しさん＠１周年** · 2017/05/31(水) 00:35:04.60

サーバ用のやつだろ？
一般にも販売されてるみたいだけど

**名無しさん＠１周年** · 2017/05/31(水) 00:37:24.22

この前まで1テラフロップですげーとか言ってなかったっけ？

**名無しさん＠１周年** · 2017/05/31(水) 02:29:51.71

京超えたって聞いた

**名無しさん＠１周年** · 2017/05/31(水) 06:10:10.66

GoogleやAmazo、、肥大化すると、
世界中で、特選禁止法の標的になるな。

**名無しさん＠１周年** · 2017/05/31(水) 06:16:07.04

> このボードを64枚接続した「TPUポッド」は、11.5PFLOPSの処理性能を実現するという。

(´-`).｡ｏＯ（オイラが学生だった頃は世界最速のスパコンがひと桁GFLOPSだった…）

**名無しさん＠１周年** · 2017/05/31(水) 06:48:24.21

>>16
背が高いってｗ
どう見てもそりゃヒートシンクだろ。

**名無しさん＠１周年** · 2017/05/31(水) 07:14:14.41

>>24
SX-2使ってたわ
1.5GFLOPS
CRAY-1なんて100MIPSくらいだったような

**名無しさん＠１周年** · 2017/05/31(水) 08:40:33.57

日本は追いつけねえ……

**名無しさん＠１周年** · 2017/05/31(水) 11:06:40.32

これ誤訳
6時間じゃなくて12時間
in an afternoonがなんで6時間になるんだよw

**名無しさん＠１周年** · 2017/05/31(水) 11:41:53.86

さらにアメリカ一強になるのかな(´･ω･｀)

**名無しさん＠１周年** · 2017/05/31(水) 12:40:40.44

トレーニングが必要なくなったときが本物

トレーニングのために機能を割いてるからある意味では無駄が多い

**名無しさん＠１周年** · 2017/06/01(木) 06:25:41.09

>>28
朝起きてからアフタヌーンまでだから

**名無しさん＠１周年** · 2017/06/01(木) 06:29:00.95

量子コンピューターと真逆を行くスタイル

**名無しさん＠１周年** · 2017/06/01(木) 19:31:31.18

MRC-95NSFA

**名無しさん＠１周年** · 2017/06/02(金) 09:07:04.02

ノイマン型が苦手とする、量子コンピューティングが解決出来る得意問題はまた別だからな

**名無しさん＠１周年** · 2017/06/02(金) 16:13:28.05

>>31
だよね、これ6時間だよね
pcwatchじゃ半日となってて気になった

**名無しさん＠１周年** · 2017/06/02(金) 18:39:53.59

CPUやGPUはぼんやりと理解してるんだが
APUやらTPUやらSoCはもうわからなくなってきた

**名無しさん＠１周年** · 2017/06/02(金) 20:52:47.30

>>28
in an afternoon
仕事上で口語的に使うならだいたい3～4時間くらい
一日の中で区分けするなら最大6時間

元のtech crunchおよびGoogle blogsの文章では
a full day(GPU処理) vs in an afternoon(TPU処理)
となってるから24時間（丸一日） vs 6時間とした方が適切
半日（12時間）としてるPCwatchや産経bizが間違いだと思われる

**名無しさん＠１周年** · 2017/06/02(金) 20:54:51.43

人間の脳みそを使っている！？