Taiji Suzuki @btreetaiji Twitter profile

Last Seen Profiles

@LukeSchoonmaker

@_kailady

@pvballer7

@HajimeOsak72174

@HuguesLeBrave

@apo0806apo

@Sidneystardance

@WamesGames

@Profeessoor

@Carlosezj

@ty2humble

@stuipidsan40272

@soarezcity

@hertzarena

@Sai28048693

@gordey66

@impure_stories

@chrisrusin

@UTchris69

@jero_mar

@hijabjilbab1

@D3NNI_yt

@Megalo13884672

@Sav_FM

@VinodKu42817428

@Florian_Tardif

@charroblags

@Alain2021L

@ib_1111

@mansheadacademy

@safemoonceltics

@TayehAdel

@A_Mersino

@Sargon_of_Akkad

@PadGHRS

@SharpiBees

Taiji Suzuki

@btreetaiji

5 years

先週，京都大学数学教室で集中講義をさせていただきました．その時の資料です．・機械学習概要：・深層学習概要（後半で数理を重点的に紹介）：その他，板書等の資料：

0

477

2K

Taiji Suzuki

@btreetaiji

4 months

今回のSORAの発表で，ここ数か月の研究が無になった学生・研究者がどれだけいるんだろうか．

1

305

1K

Taiji Suzuki

@btreetaiji

11 months

なぜTransformerは良い性能を達成するのか？ Attentionが入力列に応じて重要なトークンを選択することで，ほぼminimaxレートで無限系列から無限系列への非線形関数を推定できることを示しました． @ICML2023 にて発表しました．

0

239

1K

Taiji Suzuki

@btreetaiji

4 years

「ベイズと頻度論」関係の良記事だと思います。私もこの方の考え方と同様の感覚を持ってます。

y.ohkubo：「数理科学を使えば統計の”主義”を争う必要ない」という主張について検討する

・はじめに統計学の歴史では、頻度主義とベイズ主義という異なる立場の方法が存在し、違いに論争を繰り広げてきました。しかし、近年の統計学者の中には「現代の統計学は…

ameblo.jp

1

143

630

Taiji Suzuki

@btreetaiji

4 years

日本の大学の研究競争力の弱さは，学部・修士重視の体制も大きいかと思います．USをはじめとして海外ではラボの中心は雇用されているPhD希望の学生で，普段のあらゆる研究活動が論文に直結します．一方，日本では多くの労力が「卒業用の研究」に消えていきます．

2

181

628

Taiji Suzuki

@btreetaiji

3 months

すでにご指摘いただいておりますが，この4月1日付で東京大学・大学院情報理工学系研究科・数理情報学専攻（計数工学科）の教授に昇任いたしました．これからも機械学習・人工知能・数理統計を盛り上げていきたいと思います．皆様，今後ともどうぞよろしくお願いします！

12

61

535

Taiji Suzuki

@btreetaiji

1 year

拡散モデルが話題ですが，拡散モデルは分布推定の意味でミニマックス最適な推定誤差を達成可能であることを示しました．分布のサポートが低次元である場合は次元の呪いを回避し，Wasserstein距離の意味で最適レートを達成することも示しています．主著は弊研究室M1の大古君です．

Stat.ML Papers

@StatMLPapers

1 year

Diffusion Models are Minimax Optimal Distribution Estimators. (arXiv:2303.01861v1 [])

0

35

126

0

128

501

Taiji Suzuki

@btreetaiji

4 years

光栄にもMIRU2020のチュートリアル講演という機会をいただきました．その講演資料です．「深層学習の数理：カーネル法, スパース推定との接点」

深層学習の数理：カーネル法, スパース推定との接点

深層学習の数理：カーネル法, スパース推定との接点 - Download as a PDF or view online for free

www.slideshare.net

0

107

498

Taiji Suzuki

@btreetaiji

4 years

明日からの集中講義の資料をアップした．

0

121

460

Taiji Suzuki

@btreetaiji

6 years

機械学習・統計の理論的にしっかりした本が読みたいというコメントを時々見るのですが，統計的学習理論関係なら， Gine and Nickl Mathematical Foundations of Infinite-Dimensional Statistical Models Cambridge University Press は欲求を満たしてくれる本の一つだと思いますね．

0

77

457

Taiji Suzuki

@btreetaiji

9 months

先日，学術変革領域研究(A)「学習物理学の創成」の領域会議にて拡散モデルのチュートリアル講演をさせていただきました．その時の資料を少し修正したものを公開します．

拡散モデルチュートリアル_for_public.pdf

drive.google.com

0

101

381

Taiji Suzuki

@btreetaiji

4 years

統計のトップジャーナルの一つであるThe Annals of StatisticsのAssociate Editorを仰せつかることになりました．大役に身が引き締まる思いですが，しっかりと取り組みたいと思います．

2

46

371

Taiji Suzuki

@btreetaiji

2 years

分野の基礎が無い状態で国外からその成果物だけ輸入すると，知らずにその基礎に戻って車輪の再発明しがちになる．基礎の厚みは先端を作る上で重要だと改めて最近思う．

2

94

359

Taiji Suzuki

@btreetaiji

3 months

卒業生から思いがけないビッグなサプライズプレゼントをもらいました．有難うございます！

2

62

353

Taiji Suzuki

@btreetaiji

3 months

大阪公立大学で鈴木がおこなった講演が公開されています．機械学習の数学（鈴木大慈氏、FD研修会「人工知能と数学」） @YouTube より

機械学習の数学（鈴木大慈氏、FD研修会「人工知能と数学」）

大阪公立大学大学院理学研究科FD研修会「人工知能と数学」2024年2月15日https://www.omu.ac.jp/orp/ocami/activities/fd/list/講演者：鈴木大慈氏（東京大学大学院情報理工学系研究科・准教授）講演タイトル：機械学習の数学講演アブストラクト：機械学習は現在，Ch...

www.youtube.com

1

73

336

Taiji Suzuki

@btreetaiji

3 years

Introduction to Linear Algebraで有名なストラングによる新しい教科書「線形代数とデータサイエンス」の翻訳本を，翻訳者の松崎さんから献本いただきました．機械学習に関係する線形代数の事項から始まり圧縮センシング，最適化，深層学習と幅広い内容が含まれています．

0

78

333

Taiji Suzuki

@btreetaiji

5 years

ガウス過程が無限次元でも汎化するのは，その統計的effective dimensionalityが小さいから．つまり，十分小さなパラメータ数の有限次元モデルでよく近似できるから，なのですよね．そこの事情は理論的に詳しく調べられている．

1

72

322

Taiji Suzuki

@btreetaiji

4 years

カーネル法のような線形モデルはデータを見る前に基底を沢山用意して「待ち構えている」手法．一方で，GBDTの類はデータに合わせて基底を「生やす」手法．これは適応的推定法とも言えて，線形推定法との違いを生む．深層学習もその一種と言える．

Adaptivity of deep ReLU network for learning in Besov and mixed...

Deep learning has shown high performances in various types of tasks from visual recognition to natural language processing, which indicates superior flexibility and adaptivity of deep learning. To...

openreview.net

0

80

321

Taiji Suzuki

@btreetaiji

4 years

この度，文部科学大臣表彰・若手科学者賞という栄えある賞をいただきました！深層学習の理論研究に対するものです．研究に関わっていただいた皆様に感謝いたします．

令和2年度科学技術分野の文部科学大臣表彰受賞者の決定について：文部科学省

www.mext.go.jp

0

57

316

Taiji Suzuki

@btreetaiji

3 years

個人的には，進振りは点数よりも自分の興味で選んだ方が絶対に良いと思う．進振りあたりから「どんな教科もできる」が偉かったフェーズが終わって「何をやらないか」の選択が重要になってくる．自分の人生を自分で規定していく段階になってくる．

0

59

323

Taiji Suzuki

@btreetaiji

5 years

機械学習の興隆や深層学習の復活を見ると，今ディスられているトピックを研究するのが"次"を引き当てる鍵なのかもしれない．

1

53

287

Taiji Suzuki

@btreetaiji

5 years

「深層学習の数理」に関する集中講義用の資料を，PFNの岡野原さんに紹介していただきました．（あまりわかりやすく作っていませんが参考になれば幸いです）

深層学習の数理

深層学習の数理 - Download as a PDF or view online for free

www.slideshare.net

Daisuke Okanohara / 岡野原大輔

@hillbig

5 years

鈴木大慈先生による深層学習の理論解析、特に表現能力、汎化能力、最適化理論について。重要なトピックを幅広くカバーしており、最新のNeural Tangent Kernelや二重効果なども解説されている。英語でもこれほど充実しているのは無いと思う。

0

372

1K

0

62

282

Taiji Suzuki

@btreetaiji

5 years

early stoppingがイロモノ扱いされているのを見かけてちょっと驚きました．early stoppingはれっきとした正則化法だというのが私の理解です．実際カーネル法の最適化では理論的に十分verifyされています．

2

73

275

Taiji Suzuki

@btreetaiji

5 years

KL-ダイバージェンスは 1. (座標変換に対する) invariance 2. System independence 3. Subset independence (4. uniqueness) を満たす唯一のダイバージェンスである．

1

50

269

Taiji Suzuki

@btreetaiji

5 years

回帰でX^TXが退化するとき，L2正則化やL1正則化をかけて学習するのが通例ではあるけれども，この状況は昨今のoverparameterizedな深層学習の理論研究と相まって一つのトレンドになっていますね．次元をさらに上げるとむしろ分散が減って誤差が小さくなるという話．

Surprises in High-Dimensional Ridgeless Least Squares Interpolation

Interpolators -- estimators that achieve zero training error -- have attracted growing attention in machine learning, mainly because state-of-the art neural networks appear to be models of this...

arxiv.org

0

52

269

Taiji Suzuki

@btreetaiji

2 years

ちなみに自分もBICは規準と呼んで良い派です．また，AICとBICの違いを「頻度論」と「ベイズ」の違いだと説明するよりも，「サイズnのデータを見てから1期先予測した時の予測誤差」を見るのか，「データ0から始めてそこからn期の累積予測誤差」を見るか，の違いの方が本質的であると考えている派です．

1

25

267

Taiji Suzuki

@btreetaiji

4 years

「パターン認識的なML」と「データ解析としてのML」はそれなりに前提が異なっているので注意が必要．��ターン認識は自然界の画像・音声・言語を相手していて理想的には超強い識別機が一つあれば良い，一方統計データ解析では数多あるデータごとに良いモデルを選ぶので微妙に方向性が違う．

2

40

265

Taiji Suzuki

@btreetaiji

2 years

統計やMLで必要な「数学」は数学に詳しいということよりも物事の成り立ちや論理構造を捉えられるかという点が大きい．数学用語に詳しくてもこれができないというのはよくある．

0

38

262

Taiji Suzuki

@btreetaiji

3 years

"数学"と"情報学"における数学の取り扱いの違いは室田先生の講義 (26:20くらい) にある言い回しが納得感あると思う．「正しさという点ではどちらも同じ規準で判断できるが，面白さという点においては両者で意見が異なる場合がある」

モデルとデータ -記述する-

数学は、二千年以上の長い歴��を有し、現在もなお活発な研究がなされ、急速な発展を続けている分野である。数や図形の深い性質、関数や空間の構造が次々に明らかにされており、約350年間懸案だったフェルマー予想の解決や、約100年間未解決だったポアンカレ予想が解かれる等、最近の数学の進展には目を見張るものがある。また、数学は思考の自由さと汎用性の広さが特徴の分野で、諸科学の共通言語として、理学、工学、...

ocw.u-tokyo.ac.jp

0

57

246

Taiji Suzuki

@btreetaiji

3 years

物事を「解る」とは，すなわち対象の情報を圧縮して記憶できている状態だと思っている．なので解っている人は端的に本質的な説明ができ，それが時に"わかりやすさ"につながる．一方で，復号には辞書が必要なことも多いので，解っている人の端的かつ本質的な説明が必ずしも分かりやすいわけではない．

0

49

239

Taiji Suzuki

@btreetaiji

3 years

こちらのNeurIPS論文では，データが高次元の場合に真の関数が方向によってバラバラな滑らかさを持つことに着目し，そのような状況では深層学習は次元の呪いを回避できることを示しました．一方でカーネル法は次元の呪いを直に受けることも示し深層学習の優位性を示しました．

Deep learning is adaptive to intrinsic dimensionality of model...

Deep learning has exhibited superior performance for various tasks, especially for high-dimensional datasets, such as images. To understand this property, we investigate the approximation and...

openreview.net

1

42

233

Taiji Suzuki

@btreetaiji

4 years

楠岡先生による資料「確率解析の研究を振り返って」．「確率とは何か」という問いに関する歴史的経緯から始まり，確率解析とそのファイナンスへの応用，マリアバン解析に至る．

0

54

217

Taiji Suzuki

@btreetaiji

2 years

理研AIPの2021年度成果報告会が3月25日に開かれます．こちらは深層学習理論チームの成果(抜粋)をまとめたポスターです．当日もこのポスターで発表します．

0

45

217

Taiji Suzuki

@btreetaiji

3 years

研究のレベルとしては"難しい"方が評価されるけれども，引用される論文は"簡単な"研究なのが色々な葛藤を生んでいますね． ML業界はその"簡単さ"を批判され続けてきた一方で，そのおかげで規模を拡大できたという側面がある．

1

33

213

Taiji Suzuki

@btreetaiji

4 months

Transformerによるin-context learningにおいて非線形特徴量を勾配法で学習できることを示した論文です (修士学生Kim君主著)． Attention層の前にNNによる非線形特徴抽出層を入れたモデルを平均場ランジュバン動力学で学習できることを示していて，非凸損失の鞍点を抜ける方策も提案しています．

Stat.ML Papers

@StatMLPapers

4 months

Transformers Learn Nonlinear Features In Context: Nonconvex Mean-field Dynamics on the Attention Landscape

0

13

64

2

40

212

Taiji Suzuki

@btreetaiji

2 years

今回のICLRのこちらの論文()，主著の大古君は現在計数・数理の四年生なのですよね．計数のカリキュラムを真面目に受ければ，学部四年生でもICLRに理論論文を通せたりするわけですね．（本人の能力によるところが大きいのは言うまでもないですが🙂）

Particle Stochastic Dual Coordinate Ascent: Exponential convergent...

We introduce Particle-SDCA, a gradient-based optimization algorithm for two-layer neural networks in the mean field regime that achieves exponential convergence rate in regularized empirical risk...

openreview.net

0

64

207

Taiji Suzuki

@btreetaiji

4 years

私も「数理工学とAI」という題目で寄稿しましたので，興味ある方はぜひ読んでみてください．

サイエンス社

@saiensu_sha

4 years

【近刊】次回の数理科学2020年7月号（6月19日発売）が本日出来ました！特集テーマは「AI時代の数理」です。 7月号もよろしくお願い致します！

0

91

288

0

50

198

Taiji Suzuki

@btreetaiji

4 years

ICLRに三本論文(3 spotlight)がacceptされました:)

Graph Neural Networks Exponentially Lose Expressive Power for Node...

We relate the asymptotic behavior of graph neural networks to the graph spectra of underlying graphs and gives principled guidelines for normalizing weights.

openreview.net

5

30

190

Taiji Suzuki

@btreetaiji

4 years

Two papers were accepted at #NeurIPS2020 ! 1. Taiji Suzuki: Generalization bound of NN trained by infinite-dim Langevin dynamics. (spotlight) 2. Kenta Oono, TS: Optimization and generalization analysis of gradient boosting for GNN.

5

31

190

Taiji Suzuki

@btreetaiji

3 years

確率で算術平均を取ることが誤りとなると，情報幾何の言葉ではe-座標系を使う人は"正しく"てm-座標系を使った人は"誤り"です，という話になってしまうかと．いうなればα-ダイバージェンスはKL以外"誤り"ですみたいな話になってしまいますね．

1

30

187

Taiji Suzuki

@btreetaiji

4 years

IJCAI-PRICAI 2020に深層学習のモデル圧縮に関する理論と手法 (Spectral-pruning) の論文が通りました！統計的自由度を各層で定義して，その自由度までネットワークを圧縮できることを示し汎化誤差も抑えたというものです．

3

29

186

Taiji Suzuki

@btreetaiji

3 months

I am thrilled to announce that I have been promoted to the position of full Professor at the University of Tokyo. I am immensely grateful to everyone who has supported me along the way!

21

7

173

Taiji Suzuki

@btreetaiji

4 years

(みなさんここだけの話、いろいろ研究集会やシンポジウムがキャンセルされて「研究はかどるな」とか思ってないですよね？)

1

26

170

Taiji Suzuki

@btreetaiji

3 months

弊研究室の大古一聡君が「総長大賞」を受賞いたしました．総長大賞は総長賞の中でも特に優れた業績へ贈られる賞です．受賞内容は「1 次勾配情報に基づく学習問題の統計的・計算量的解析」で，最近話題の拡散モデルの最適性に関する研究などが評価されました．

0

24

169

Taiji Suzuki

@btreetaiji

2 years

今年のICMLは10本の論文にoutstanding paper awardが授与されたのだけれども，そのうち(少なくとも)2本が炎上している．

1

29

167

Taiji Suzuki

@btreetaiji

3 years

二反田さん主著の我々の論文がICLR2021にてoutstanding paper awardに選ばれました．栄えある賞をいただき大変光栄です．

ICLR 2024

@iclr_conf

3 years

We are thrilled to announce the #ICLR2021 Outstanding Paper Awards! Out of 860 excellent papers, the award committee identified 8 that are especially noteworthy: Congratulations to the authors!! @shakir_za @iatitov @aliceoh @NailaMurray @katjahofmann

1

122

545

2

25

165

Taiji Suzuki

@btreetaiji

6 years

情報幾何学が「活きている様」を見るなら駒木先生の2006年と1996年の論文は外せないかなと思いますね

1

42

158

Taiji Suzuki

@btreetaiji

4 years

今回のICMLはダメでした． A+A+SAの論文がrejectされたのは極めて遺憾．

1

34

154

Taiji Suzuki

@btreetaiji

4 years

結構，ある"強い分野"出身の人なら機械学習は余裕という表現は見るけど．実は一番の障害はその出身分野への強すぎる愛だったりする．

0

25

150

Taiji Suzuki

@btreetaiji

9 months

今回は，二本の主著論文を通すことができました．共著者のサポートがあったのは言うまでもないのですが，40歳を超えてもトップ会議に主著論文を通せるのかは気になっていたので，まだ通せることが実体験として分かって良かった．

0

10

154

Taiji Suzuki

@btreetaiji

6 years

ICMLに博士課程の二反田さんが主著で関数勾配を用いたResNet型のブースティング法に関する論文が通りました． Atsushi Nitanda, Taiji Suzuki Functional Gradient Boosting based on Residual Network Perception

Functional Gradient Boosting based on Residual Network Perception

Residual Networks (ResNets) have become state-of-the-art models in deep learning and several theoretical studies have been devoted to understanding why ResNet works so well. One attractive...

arxiv.org

3

39

148

Taiji Suzuki

@btreetaiji

4 years

@matsui_kota deepは最適レートを達成すると言ってもレートにかかる係数が大きいので，小サンプルではカーネルに負けることは普通にあります．あとdeepは特徴抽出は得意ですが特徴選択は得意ではなく係数にも次元が現れます．一方GBM系は直に特徴選択するので，それが合うデータでは負けてしかるべきかと思います．

1

37

151

Taiji Suzuki

@btreetaiji

8 months

これは凄い．．．世界一詳しい高倉君の論文の解説だ．有難うございます．

Kentaro Seki / 関健太郎

@trgkpc

8 months

ラボの輪講で >RP の論文紹介しようと思ってガチで資料作ったら１週間溶けてた供養するのでみんな読んでくれ（63ページある）

3

169

926

0

21

150

Taiji Suzuki

@btreetaiji

7 months

弊研究室M2の大古一聡君主著の研究がIBIS2023最優秀プレゼンテーション賞を受賞いたしました．関係者の皆様，有難うございます！「Diffusion Models are Minimax Optimal Distribution Estimators」

1

26

134

Taiji Suzuki

@btreetaiji

5 years

数理情報学談話会 2019年11月26日（火）17:00-18:00　工学部６号館３階セミナー室ＡＤ講演者：渡辺　澄夫　先生（東京工業大学情報理工学院）題目：ガウス近似できない事後分布の漸近挙動について

2

43

131

Taiji Suzuki

@btreetaiji

4 years

以前，とある企業の取材で白板に中心極限定理が書かれていたのがSNSで総突っ込みされていたけれども，講義をしている感覚からすると世の中のエンジニアに中心極限定理を笑える人はそんなにいないはず．

1

20

128

Taiji Suzuki

@btreetaiji

3 years

先日行われた深層学習理論チームによるAIPオープンセミナーの動画が公開されました．ぜひご覧ください．

AIP Open Seminar #20 20210407

https://aip.riken.jp/events/event_115479/

www.youtube.com

1

23

131

Taiji Suzuki

@btreetaiji

3 years

ICLR2021に弊グループより３本の論文がアクセプトされました．そのうち，１本がオーラル，１本がスポットライトに選ばれました． 1. Nitanda&Suzuki 2. Suzuki&Akiyama 3. Amari, Ba, Grosse, Li, Nitanda, Suzuki, Wu & Xu

When does preconditioning help or hurt generalization?

While second order optimizers such as natural gradient descent (NGD) often speed up optimization, their effect on generalization has been called into question. This work presents a more nuanced...

openreview.net

0

27

129

Taiji Suzuki

@btreetaiji

3 years

Sanovの定理関連だと，CsiszarのInformation Theory and Statistics: A Tutorialは情報幾何の言葉で説明されているので情報幾何に興味がある人にはお勧めだと思う．

0

31

128

Taiji Suzuki

@btreetaiji

4 years

非i.i.d.時系列モデルの推定を考える上でも"サンプルサイズ"を基準に推定精度を考えるのは危険．代わりに各観測値の"情報量"を考えるべき．i.i.d.でもサンプルサイズの測り方には任意性があって，例えば分散既知ガウスは「n個の観測値」は「分散が1/nの1個の観測値（サンプル平均）」と情報量は同じ．

1

26

125

Taiji Suzuki

@btreetaiji

5 years

@physics303 まず以下のガウス過程のレビューは参考になりますガウス過程回帰の推定理論はなどがあります．ここで小球確率というものが重要なのですが，それがRKHSの有限次元近似とどう関係するかが以下の論文に書いてあります

Gaussian Processes and Kernel Methods: A Review on Connections and...

This paper is an attempt to bridge the conceptual gaps between researchers working on the two widely used approaches based on positive definite kernels: Bayesian learning or inference using...

arxiv.org

1

18

127

Taiji Suzuki

@btreetaiji

3 years

非専門家向けに話すときは細かい仮定とか飛ばして結果の美味しいところだけ話すけれども，専門家向けに話すときは仮定も述べないと研究のlimitationが伝わらず不誠実になる．この匙加減はいつまでたっても難しいですね．

0

11

127

Taiji Suzuki

@btreetaiji

1 year

We have got 5 papers accepted by ICML2023😀

4

15

126

Taiji Suzuki

@btreetaiji

3 years

We have three papers accepted in #NeurIPS2021 ! One of them was selected as spotlight presentation😀 (spotlight)

Deep learning is adaptive to intrinsic dimensionality of model...

Deep learning has exhibited superior performance for various tasks, especially for high-dimensional datasets, such as images. To understand this property, we investigate the approximation and...

arxiv.org

4

16

126

Taiji Suzuki

@btreetaiji

4 years

I think mathematical difficulty should not be a reason for rejection.

4

19

125

Taiji Suzuki

@btreetaiji

5 years

私は深層学習を最小二乗法の発展形として説明すること自体は"アリ"派ですね．

3

27

121

Taiji Suzuki

@btreetaiji

5 years

最近，逆温度を使ったベイズ予測分布に関する記事を度々見かけますが，実はα-ダイバージェンスをリスクとしたベイズ予測分布は逆温度っぽい予測分布になります．外側で1/β乗する点が違うのですが．昔，その予測分布の情報幾何に関する論文を書いたことを思い出しました．

On Prior Selection and Covariate Shift of β-Bayesian Prediction Under α-Divergence Risk

We investigate the prior selection problem for predicting an input–output relation by a generalized Bayesian method, α-Bayes prediction. The α-Bayes predictive distribution is given by minimizing t...

www.tandfonline.com

1

28

123

Taiji Suzuki

@btreetaiji

3 years

機械学習における一次確率的凸最適化法に関しては Lan, George: First-order and Stochastic Optimization Methods for Machine Learning が大体網羅していて良いと思う．

First-order and Stochastic Optimization Methods for Machine Learning

link.springer.com

0

26

125

Taiji Suzuki

@btreetaiji

3 years

ICML論文をarXivに上げました．教師-生徒設定で横幅の狭い教師ネットを推定する際に，過剰パラメータ化した生徒ネットを勾配法を用いて学習させると大域的探索フェーズの後，局所的に線形収束するフェーズに移り，真のパラメータを特定できることが示されます．

On Learnability via Gradient Method for Two-Layer ReLU Neural...

Deep learning empirically achieves high performance in many applications, but its training dynamics has not been fully understood theoretically. In this paper, we explore theoretical analysis on...

arxiv.org

1

26

122

Taiji Suzuki

@btreetaiji

3 years

I am thrilled to announce that our paper "Optimal Rates for Averaged Stochastic Gradient Descent under Neural Tangent Kernel Regime" has received the outstanding paper award at ICLR2021! Huge congrats, Atsushi Nitanda! I am honored to have coauthored this paper.

ICLR 2024

@iclr_conf

3 years

We are thrilled to announce the #ICLR2021 Outstanding Paper Awards! Out of 860 excellent papers, the award committee identified 8 that are especially noteworthy: Congratulations to the authors!! @shakir_za @iatitov @aliceoh @NailaMurray @katjahofmann

1

122

545

5

25

122

Taiji Suzuki

@btreetaiji

4 years

今日は統計連合大会で以下のスライドのショートバージョンを話しました: 無限次元勾配ランジュバン動力学を用いた深層学習の最適化理論と汎化誤差解析

0

30

120

Taiji Suzuki

@btreetaiji

3 years

深層学習理論チーム二反田篤史(元)客員研究員と鈴木大慈リーダーがICLR 2021 Outstanding Paper Awardsを受賞 | 革新知能統合研究センター #AIP

2

15

120

Taiji Suzuki

@btreetaiji

4 years

「ディープラーニングと物理学2020 オンライン」にてトークさせていただくことになりました．過去の登壇者には知り合いの方が結構見えますね．

0

19

118

Taiji Suzuki

@btreetaiji

9 months

NeurIPSに４本の論文が採択されました．

0

13

110

Taiji Suzuki

@btreetaiji

7 years

今回のNIPSで話題になった「錬金術」問題．理論的裏付けのない手法を使うこと自体は問題ではなく，慢性的に理論的理解の放棄が進む可能性を問題視すべきであろう．

0

51

108

Taiji Suzuki

@btreetaiji

11 months

今週，東北大学で(主に数学科向けに)集中講義をしてきました．コロナ後初めての対面での集中講義で参加者の生のフィードバックがあって楽しかったです．

0

20

109

Taiji Suzuki

@btreetaiji

5 years

密度推定と判別のどちらが簡単かと言えば判別なので，判別のために密度推定(GAN)を介することに積極的な理由が見当たらないですね．

1

27

106

Taiji Suzuki

@btreetaiji

3 years

修論・卒論，指導教員が過労で倒れて承認できないというリスクもあるんだよなぁ...

0

22

101

Taiji Suzuki

@btreetaiji

4 years

竹村先生の現代数理統計学は読んでおいて間違いないでしょう．

今井翔太 / Shota Imai@えるエル

@ImAI_Eruel

4 years

竹村先生の超名著『現代数理統計学』、発売元の創文社がなくなるから、入手困難になるなーと思ってAmazon見たらとんでもない価格がついていた(定価4000円ちょいのはず) 色んな思想(意味深)がいる統計学界隈でも、この本にケチがついているのは見たことがないくらい評価が高い本ですがここまでくると…

1

53

196

2

20

101

Taiji Suzuki

@btreetaiji

3 years

弊研究室で卒論を執筆した長谷川貴大君が統計学会で優秀報告賞を受賞しました．おめでとうございます😀

0

4

103

Taiji Suzuki

@btreetaiji

5 years

一方で，深層学習はそのeffective dimensionalityにあたるものが何なのか，self regularizationとか最適化方法も絡んできていまいちよくわかっていない．なのでoverparameterization関連の理論研究が盛り上がっているという訳ですね．

0

27

101

Taiji Suzuki

@btreetaiji

5 years

Honorable Mention Outstanding Paper Awardに選ばれたGANによるBesov空間に含まれる確率密度の推定論文．我々の論文の結果を使ってくれていて有難いです． Nonparametric Density Estimation & Convergence Rates for GANs under Besov IPM Losses

0

23

101

Taiji Suzuki

@btreetaiji

4 years

生主デビュー，完．

3

11

98

Taiji Suzuki

@btreetaiji

3 years

やはり議論は白板を用いて対面で行った方が圧倒的に効率が良い．現状，学生/教員ともにうまく意思疎通が図れずフラストレーションがたまっている所は多いのだろうな．

0

10

99

Taiji Suzuki

@btreetaiji

6 years

「数理科学」８月号が「機械学習の数理」特集です．私も原稿を寄稿させていただきました．

s.komata

@_kmt46

6 years

数理科学、次号は機械学習か

0

133

326

0

29

99

Taiji Suzuki

@btreetaiji

3 years

実際，理情・計数の底点は上がり続けていますね．情報系が過剰に人気なのもありますが，需要と供給が合ってないのも事実...

Hideki Nakayama

@n_hidekey

3 years

【悲報】東大進振り、理情や計数に進学するのが無理ゲーに 🤔

2

113

313

0

32

98

Taiji Suzuki

@btreetaiji

6 years

研究室を紹介していただきました。【大学研究室Vol.28】進化し続けるデータ科学の未来を拓く。機械学習、統計的学習理論、数理統計学、データ解析についての理論と応用を研究 | | Technologist's magazine

【大学研究室Vol.28】進化し続けるデータ科学の未来を拓く。機械学習、統計的学習理論、数理統計学、データ解析についての理論と応用を研究 - Technologist’s magazine

東京大学大学院情報理工学系研究科鈴木研究室准教授博士（情報理工学）鈴木大慈ルールベースから統計的

www.criprof.com

2

23

92

Taiji Suzuki

@btreetaiji

4 years

Rademacher複雑度は学習アルゴリズムに依らない仮説空間の複雑さの指標で（VC次元の類でバウンドできる），学習アルゴリズムによって推定量の取りうる範囲が限定されることを考慮した指標が局所Rademacher複雑度ですね．

1

10

95

Taiji Suzuki

@btreetaiji

2 years

サーモンとコーヒーって意外に味の組合せが良いなと思ったら，UCCが実際にデータ出していた．

なぜ塩鮭がコーヒーに合うのか

IoTの進展によって、あらゆるデータを入手できるようになり、新ビジネス創出の可能性が広がってきた。UCCホールディングスやヤンマー、コニカミノルタなど、先駆者たちの実例から新時代にビジネスを創る方法を学ぶ。

business.nikkei.com

2

30

93

Taiji Suzuki

@btreetaiji

3 years

弊研究室博士課程所属の渡邊千紘さんによる講演です．明日開催です．

数学カフェ＠NPO法人

@mathcafe_japan

3 years

第36回数学カフェ「機械学習の数理」本講演 #1 の情報が公開されました！テーマは【関係データ解析へのランダム行列理論の応用】です。奮ってご参加くださいませ。 #math_cafe

2

20

89

0

15

93

Taiji Suzuki

@btreetaiji

4 years

数学は役に立つか立たないかみたいな一連の議論は，100年前に戻って当時の線形代数に同じことを言えるかを考えれば見通しが良くなるだろう．

0

18

89

Taiji Suzuki

@btreetaiji

5 months

弊グループから６本の論文がICLR2024 (International Conference on Learning Representations) に採択されました．

1

13

92

Taiji Suzuki

@btreetaiji

5 years

ちなみに，漸近的に(O(1/n)の項まで)最尤推定量と同等なベイズ推定量を与える事前分布の構成といった研究もあります．これから情報幾何的考察を経て，事前分布をうまく選べばベイズ推定量が最尤推定量を優越し，漸近許容性(ある種の最適性)を持つといった話につながります．

0

19

90

Taiji Suzuki

@btreetaiji

4 years

この一連のWasserstein勾配流でNNを最適化するアプローチの発端は二反田さんのparticle gradient descentなのですよね．ちゃんと引用してくれています．

Daisuke Okanohara / 岡野原大輔

@hillbig

4 years

BachらによるNN理論解析のブログ記事。2層ReLU NNで（解析可能な）中間層ニューロン数が∞、勾配法を連続化したワッサースタイン勾配流の場合 1) 学習は大域最適解に到達する 2) 解は暗黙的正則化で変動ノルムの最大マージン解を達成し汎化達成する

0

37

178

0

16

91

Taiji Suzuki

@btreetaiji

7 years

Nonparametric Bayes book. Total 646 pages!

1

18

92

Taiji Suzuki

@btreetaiji

3 years

25 papers from RIKEN-AIP have been accepted at ICML 2021 | Center for Advanced Intelligence Project #AIP

2

19

91

Taiji Suzuki

@btreetaiji

8 months

IBIS2023終了！来年は11月4日～7日に埼玉ソニックシティで開催予定です．奮ってご参加ください！

1

20

90

Taiji Suzuki

@btreetaiji

2 years

I am delighted that our paper on the infinite dimensional Langevin dynamics was accepted by COLT2022😀 Boris Muzellec, Kanji Sato, Mathurin Massias, Taiji Suzuki: Dimension-free convergence rates for gradient Langevin dynamics in RKHS

Dimension-free convergence rates for gradient Langevin dynamics in RKHS

Gradient Langevin dynamics (GLD) and stochastic GLD (SGLD) have attracted considerable attention lately, as a way to provide convergence guarantees in a non-convex setting. However, the known...

arxiv.org

4

11

90

Taiji Suzuki

@btreetaiji

4 years

We proposed a new importance labeling scheme (aka, active learning scheme) and gradient descent algorithm in RKHS that leads to much better generalization ability than uniform one under near interpolation settings.

Stat.ML Papers

@StatMLPapers

4 years

Gradient Descent in RKHS with Importance Labeling. (arXiv:2006.10925v1 [cs.LG])

0

6

25

0

17

89

Taiji Suzuki

@btreetaiji

3 years

Two papers by my students were accepted by #AISTATS2021 ! 1. Yashima, Nitanda, Suzuki: Exponential Convergence of Classification Errors by Random Feature SGD 2. Murata, Suzuki: Gradient Descent in RKHS with Importance Labeling

Gradient Descent in RKHS with Importance Labeling

Labeling cost is often expensive and is a fundamental limitation of supervised learning. In this paper, we study importance labeling problem, in which we are given many unlabeled data and select a...

arxiv.org

1

12

87