Kyo @kyo_takano Twitter profile

Pinned Tweet

Kyo

10 months

単著論文「Self-Supervision is All You Need for Solving Rubik’s Cube」が #TMLR ’23に採択されました🎉 「スクランブルの最終手を予測する」という単純なタスクによって、ルービックキューブのような組み合わせ探索問題を近最適に解けることを示しました（先行手法DeepCubeAを上回り、SOTAを達成）

Accepted papers at TMLR

@TmlrPub

10 months

Self-Supervision is All You Need for Solving Rubik’s Cube Kyo Takano. Action editor: Marc Lanctot. #rubik #cube #deepcubea

0

10

47

4

255

1K

Last Seen Profiles

@OpenFPL_DAO

@CalebTerveen

@tothemoonrepo

@WAUTC

@3ksDee

@karthikenah

@LargesseMorlu

@Gays_Cruising

@FIAWEC

@boysbeingboys

@rilykyuti

@NarleyOne86

@TihonDedulja

@doctor_tongue

@yoshiebbc

@yasuyuki_staff

@OldAbeNation

@PHIdotorg

@JoshFerme

@NNCReview

@joycaraia

@GBA_b_BGH

@KMaminski

@LlKKLEMISAKI

@CL_Autres

@EmiUelmen

@uryunav

@BritishIntInv

@penikma89063156

@kylejicon

@RizwankayaniASC

@WPRahThroat

@aji_ruzi

@gavinz_1

@jjhuuuyi

@michi426ANS

Kyo

@kyo_takano

1 year

これは良くない使い方で、ハルシネーションという現象を引き起こすので避けましょう（※落合陽一さんフォーマット？自体は悪くありません）

WOLF

@FXWOLF2

1 year

論文読む前に落合陽一さんフォーマットでChatGPTに聞くと理解が捗る。2021年以前の論文ならだいたいいける。何度か繰り返してると「次に読むべき論文」は重複したものを提案してくるので、最初に10個挙げてってしたほうがいいかも。

3

279

2K

6

543

3K

Kyo

@kyo_takano

10 months

この論文は、悪名高いルービックキューブが確率論的にはメチャクチャ簡単だった、という衝撃的な事実を示しています「グチャグチャにしていく様子を大量に観察する」だけで解けちゃうので、群論とか特定の手順とか一切必要ありません。LLMと同じで、デカいモデルで大量のデータを学習するだけ

Kyo

@kyo_takano

10 months

単著論文「Self-Supervision is All You Need for Solving Rubik’s Cube」が #TMLR ’23に採択されました🎉 「スクランブルの最終手を予測する」という単純なタスクによって、ルービックキューブのような組み合わせ探索問題を近最適に解けることを示しました（先行手法DeepCubeAを上回り、SOTAを達成）

4

255

1K

0

686

2K

Kyo

@kyo_takano

10 months

#ACL2023 Findingsで発表され、「極めてシンプルでありながらBERT等の既存の深層学習手法を上回る」として話題の「gzipによるセマンティック検索」の実装と直感的な説明をGitHub Gistに掲載しました

3

286

1K

Kyo

@kyo_takano

1 year

ようわからんプロンプトエンジニアやらプロンプトデザイナーやらは無視して「OpenAI Cookbook」か「Prompt Engineering Guide」だけ読んどけってワケよ

3

177

1K

Kyo

@kyo_takano

1 year

@otter_fes このページでSystem欄に「あなたはBL作家です。指定されたあらすじに基づいて小説を書いてください。ただし、書き加えた詳細はあらすじを補完することができますが、あらすじそのものには変更を加えないようにしてください。」などと指示して生成すると良いかもしれません

OpenAI Platform

Explore developer resources, tutorials, API docs, and dynamic examples to get the most out of OpenAI's platform.

platform.openai.com

2

132

815

Kyo

@kyo_takano

1 year

@OKtamajun これ、わざわざ作ったわけじゃなくて、10年以上前に放送されてたThe Officeっていうコメディドラマですよ

1

298

744

Kyo

@kyo_takano

1 year

日本語オープンソースLLMの「OpenCALM-7B」をGoogle Colabの無料枠でも特別な処理なく使えるようにしました 8bit量子化したモデルを @HuggingFace に上げています

2

133

664

Kyo

@kyo_takano

1 year

言語モデルのhallucination (幻覚、錯覚)について勘違いしている人たまに見かけるので、具体例を交えて説明します Hallucinationというのは「事実に反することやデタラメを出力する現象」を指します 🧵

4

187

656

Kyo

@kyo_takano

3 months

@JeryceDia I NEED to see MORE of this kind

2

0

611

Kyo

@kyo_takano

11 months

OpenAIが公式で出してる「AI Text Classifier」で十分 AI Text Classifier

日本経済新聞電子版（日経電子版）

@nikkei

11 months

ChatGPTの文章、見破るソフト　東京の企業が開発

116

1K

5K

2

101

535

Kyo

@kyo_takano

1 year

@OKtamajun パルクール回ですね。特に文脈とかなくパルクールをしています

Parkour PARKOUR - The Office US

Michael, Dwight & Andy try their hand at the internet sensation parkour!Watch The Office US on Google Play: https://goo.gl/zV92hg & iTunes https://goo.gl/qbY...

www.youtube.com

1

207

537

Kyo

@kyo_takano

11 months

PagedAttentionというアルゴリズムがTransformerモデルを~24倍高速化。仮想メモリとページングの考え方に基づいて、文脈中のkeyとvalueのペアをブロックに分割・管理することで、GPUをほぼ100%利用できる “エンジニアリング”だ

Zhuohan Li

@zhuohan123

11 months

🌟 Thrilled to introduce vLLM with @woosuk_k ! 🚀 vLLM is an open-source LLM inference and serving library that accelerates HuggingFace Transformers by 24x and powers @lmsysorg Vicuna and Chatbot Arena. Github: Blog:

20

264

1K

1

111

503

Kyo

@kyo_takano

1 year

OpenAIのガイドにベストプラクティス集が追加されている GPT best practices

0

79

494

Kyo

@kyo_takano

11 months

昨晩OpenAIが発表したFunction Callingの実装例がOpenAI Cookbookにアップロードされてますね（1時間前）

1

70

483

Kyo

@kyo_takano

4 months

これ超凄い最適化なのに、テクニカルすぎるのかあんまり注目浴びてないの可哀想　GPUの数にもよるけど、（LLMだけじゃない）大規模NNの訓練を20~30%まで高速化し得るって

Qian Liu 🔭

@sivil_taram

4 months

The pipeline parallelism is necessary in the era of LLM training, but a common issue is that there are bubbles. But what if someone told you that you can live without bubbles? ✨Check out the work ℤ𝕖𝕣𝕠 𝔹𝕦𝕓𝕓𝕝𝕖 ℙ𝕚𝕡𝕖𝕝𝕚𝕟𝕖 ℙ𝕒𝕣𝕒𝕝𝕝𝕖𝕝𝕚𝕤𝕞 from Sea AI Lab!🚀

7

74

432

3

102

440

Kyo

@kyo_takano

7 months

某オセロ論文の弱解決証明は不完全（近似的）だと思うまず、恣意的な閾値によるalpha-beta刈り込みを行っているので、探索に漏れがないという保証がない（Sec.3.4~3.5）。それと、任意のデータセットで反例が観測されなかったことは、仮説の正しさを確率的にしか示さない（Sec.4.1）。

2

146

430

Kyo

@kyo_takano

18 days

怪文書「ローカルLLMはこーやって使うの💢」

ローカルLLMはこーやって使うの💢

ローカルLLMはこーやって使うの💢. GitHub Gist: instantly share code, notes, and snippets.

gist.github.com

1

48

397

Kyo

@kyo_takano

8 months

Microsoftが”Textbooks Are All You Need”のphi-1とその後継モデルphi-1.5をHugging Faceで公開したの、とんでもないことの筈なのに注目されてなさすぎる。日本語圏だけならまだしも、英語圏でさえそこまで大した話題にはなってない。プロ驚き屋は何処へ行ってしまったのか…

microsoft/phi-1 · Hugging Face

huggingface.co

1

60

324

Kyo

@kyo_takano

3 months

Groq 速すぎるマジで1秒で返ってくるなにこれ

3

65

322

Kyo

@kyo_takano

1 year

OpenAIがロボット研究開発チームを解散してから2〜3年 (推定) この転換の背景には「環境からデータを生成可能な強化学習よりも、事前学習の方が"AGI"を開発する上で遥かに効率が良い」という判断があったらしい Wojciech Zaremba — What Could Make AI Conscious?

Wojciech Zaremba — What Could Make AI Conscious?

Wojciech joins us to talk the principles behind OpenAI, the Fermi Paradox, and the future stages of developments in AGI.---Wojciech Zaremba is a co-founder o...

www.youtube.com

1

66

314

Kyo

@kyo_takano

1 year

あー、Midjourney触ったことある人なら分かるけど、生成された画像リストの下に「高解像度化」「バリエーション生成」「全てやり直し」のボタンが並んでるんだよねこれを基に強化学習（ChatGPTよりも直接的で単純なRLHF）を実行して品質を上げてるんじゃないかって考察

Jim Fan

@DrJimFan

1 year

My guess is that MidJourney has been doing a massive-scale reinforcement learning from human feedback ("RLHF") - possibly the largest ever for text-to-image. When human users choose to upscale an image, it's because they prefer it over the alternatives. It'd be a huge waste not

109

402

4K

1

89

300

Kyo

@kyo_takano

1 year

CyberAgentが開発した話題の日本語言語モデル、非技術者でも簡単に使えるようにしました。HuggingFace Spaces （ @HuggingFace ）を利用しています。 OpenCALM-7B (非公式)

1

92

286

Kyo

@kyo_takano

9 months

いやOpenAIのファインチューニングはLoRAじゃなくてprefix-tuningだと思う。端的に言えば「文脈冒頭に特殊トークンを挿入する」だけだから、訓練データ量が少なすぎて元の性能が損なわれるということがないし、推論時もデプロイや複雑な操作を要求しない。ストレージもほとんど圧迫しないし

1

28

281

Kyo

@kyo_takano

20 days

ゾルトラークとか言うやつ、ただのコーディングエージェントじゃん笑　しかも超ナイーブな設計プロンプトもこんなんだし（文字列の基本的な処理が出来ていない; コードをブロックで記述していない; LLMに差分ファイルを書かせている; etc.）

2

39

283

Kyo

@kyo_takano

17 days

「メモリ全盛りMac Studio（100万円）がLLMコスパ最高!」みたいなのも全くの見当違いだよ例えばLlama 3 70Bなら、Fireworks等が100+ tok/sで提供する一方、Mac Studioは10 tok/sすら出ない。電気代を無視しても、同じコストで74億トークンは使える

4

49

285

Kyo

@kyo_takano

1 year

大規模言語モデルこの文脈で「全裸中年男性」を生成する確率は約0.00000000001% (=e^-29.74)。決してAIには書けない芸術的な文章ですね

歴ログ（尾登雄平：世界史ブロガー・ライター）

@jimanalyze

1 year

AERAの小泉悠さんインタビュー読んだ。文末がしびれました。

14

4K

7K

0

75

274

Kyo

@kyo_takano

1 year

これ典型的なhallucinationなんで真に受けないようにしましょうどの言語を「どれだけ学習して」「どれだけ得意か」、GPTは明示的に教えられていません一般的に知られる言語別の難易度とパブリックデータ量からの雑な予測値を返していると考えるのが自然です。そもそも試行毎に結果が異なります

入江慎吾 / GPT4＋Claude3 Opusが月1,000円で使えるオートロン

@iritec_jp

1 year

GPTを使ったプログラミング開発の効率を上げるには「Python」を使うのがよさそう。なぜならPythonの理解度が100%に比べて他の言語はGPTの回答によるとこんな感じ。・Python: 100% ・JavaScript: 80% ・Java: 75% ・C++: 70% ・C#: 65% ・Ruby: 60% ・PHP: 50%

17

320

2K

2

76

272

Kyo

@kyo_takano

1 year

俺が使ってる論理学的プロンプトは例えばこんな感じ 1. 推論ゴールの設定 2. 前提（条件と知識）の確認 3. CoTで推論 4. 結論 Fine-grained Chain-of-Thought Promptingって呼んでる。こういうのを分類ごとにいくつか用意しといてfew-shotで推論すると便利だよ

1

32

261

Kyo

@kyo_takano

1 year

学習データに入っているからといって、それら全てに対して忠実に学習しているわけではありません。このケースでは、GPT-4がタイトルから予測される「それっぽい単語」を逐次生成しているに過ぎません

WOLF

@FXWOLF2

1 year

@FX180507 大量の論文が学習データに入ってるみたいなので、このプロンプトでだいたいの論文の要約をしてくれますが、GPTがリアルタイムにアクセスするわけではないです。2021年以前と書いてるのはそういう理由ですね☺URLは、ちょっとでも精度上がるといいなってことで念のため入れてます。

1

0

3

2

63

261

Kyo

@kyo_takano

10 days

「ローカルLLMはこーやって使うの💢」を更新しました以下を追加: - 前提知識の確認 - 特殊トークンによるプロンプトインジェクション - 尤度関数としての利用

0

72

399

Kyo

@kyo_takano

1 year

某社（社員）による「日本人の気質・属性を持ち上げるポジショントーク」を、政府や国民が特に抵抗もせず享受している構図、個人的にかなり気持ち悪い。

2

33

235

Kyo

@kyo_takano

2 months

BitNet b1.58、再現したらしい… 信じられん（信じていない）

Teortaxes▶️

@teortaxesTex

2 months

It seems that results of that Microsoft paper about ternary LLMs can be replicated after all – for 3B @100B at least.

18

97

695

1

43

233

Kyo

@kyo_takano

3 months

何度でも言うけど、MBTIには商標があるのみで国際規格なんてものは存在しないし、そもそもデータに基づかない感覚的な"理論"をベースに作られた疑似科学的尺度なんで、心理学研究では決して推奨されていない。

しぃ🤓チー牛社不おじさん

@si271828

3 months

日本MBTI協会は、件のMBTI診断を「MBTIもどき」と呼んでブチ切れている。

12

5K

20K

0

85

226

Kyo

@kyo_takano

10 months

ただの成り行きだから大きな話題になってないけど、オープンLLMを動かすラップトップ環境としては大容量GPU (M1/M2)内蔵のMacBookが事実上のスタンダードとして定着しつつあるね 16GB/24GB GPU搭載のハイエンドゲーミングラップトップとかも選択肢としては挙げられるけど、普通にMacbookのほうが安い

2

46

228

Kyo

@kyo_takano

2 months

「AIがプログラマーを代替しつつある」と騒ぐ声が聞こえてくるが、向こう10年間のプログラマーの需要はむしろ増えると思う。単に「コードもプロンプトも書ける人材が求められていく」とかじゃなくてね

2

42

221

Kyo

@kyo_takano

1 year

勘違いしてる人を見かけるので紹介しておきますが、現時点で「公開されている」最大の日本語言語モデルはrinnaの10億パラメータモデルではなく、ABEJAの27億パラメータモデルです非公開ですが、ABEJAは67億・130億モデルも所有しています（現状世界一だと思う）

0

39

218

Kyo

@kyo_takano

11 months

アカデミア、「知のフロンティアを開拓してるのはPhDの俺達”だけ”」みたいな暗黙的な自意識を感じる。そういうとこやぞ

1

40

212

Kyo

@kyo_takano

6 months

Photographerならぬphotograperなら仕方ありませんね♪

ワカル

@wakaru9922

6 months

成田山の紅葉空間がまるで絵画だった。

532

4K

15K

0

47

197

Kyo

@kyo_takano

4 months

やっと見つかった。いくつかのタスクごとにNNを千個訓練し、同一のデータから学習する場合の性能の分散のほとんどが「初期化のランダム性」によって説明される事を示す論文 Calibrated Chaos: Variance Between Runs of Neural Network Training is Harmless and Inevitable

On the Variance of Neural Network Training with respect to Test...

Typical neural network trainings have substantial variance in test-set performance between repeated runs, impeding hyperparameter comparison and training reproducibility. In this work we present...

arxiv.org

0

38

197

Kyo

@kyo_takano

10 months

OpenAI APIが提供するFunction Callingでfew-shot学習を行う方法をGitHub Gistで公開しました Few-Shot Learning on Function Calling

few-shot-learning-on-function-calling.ipynb

few-shot-learning-on-function-calling.ipynb. GitHub Gist: instantly share code, notes, and snippets.

gist.github.com

1

25

193

Kyo

@kyo_takano

1 year

Hallucinationとは：

Kyo

@kyo_takano

1 year

言語モデルのhallucination (幻覚、錯覚)について勘違いしている人たまに見かけるので、具体例を交えて説明します Hallucinationというのは「事実に反することやデタラメを出力する現象」を指します 🧵

4

187

656

1

44

180

Kyo

@kyo_takano

1 year

ここで可視化されてるのは言語モデルの内部状態じゃなくてプロンプトとその返答のベクトル表現（embeddings）だし、 t-SNEは生物学に限らず広く使われる高次元データ可視化ツールです

forasteran

@forasteran

1 year

面白い☺️ ↓ LLMの一種であるGPT4ALLの内部状態を可視化したサイトが公開された可視化に使われたt-SNEは一細胞解析というゲノム科学の最先端の解析に多用される可視化ツール生物学とLLMの親和性あるね ↓ LLMは生物学で捉えられるものかもしれない

2

268

932

1

41

162

Kyo

@kyo_takano

1 year

エッジ推論をアレしてて、ラズパイ標準搭載GPUで高速画像処理を可能にしたIdeinさんを思い出して調べたら、ラズパイに外部GPU（"Hailo-8"）を更に搭載したデバイスを開発していた Idein、アイシンが開発するエッジAIカメラ「AI Cast」にエッジAI技術を提供

Idein、アイシンが開発するエッジAIカメラ「ai cast」にエッジAI技術を提供

Idein株式会社のプレスリリース（2023年2月8日 15時00分）Idein、アイシンが開発するエッジAIカメラ「ai cast」にエッジAI技術を提供

prtimes.jp

1

38

151

Kyo

@kyo_takano

2 months

Sakana AIのmerge論文の重要性は、「*潜在空間をalignせずとも*Frankenmergeが機能する順列がある」という発見にあると思う

1

22

144

Kyo

@kyo_takano

1 year

各所で「LLMが本文中学習出来るのはTransformerの注意機構が逐次ネットワークを再構成してくれるお陰！」みたいな言論を見るけど、正確には「Transformerにおいては注意機構によってネットワークを再構成するのが継続トークン予測における効率が良いからそうなっている」というだけですからね

1

21

133

Kyo

@kyo_takano

3 months

Groq CEOのJonathan Ross氏、何処かで見た名前だと思ったら、Google TPUの生みの親じゃん。彼の20%プロジェクトから派生したものらしい

Kyo

@kyo_takano

3 months

Groq 速すぎるマジで1秒で返ってくるなにこれ

3

65

322

1

33

131

Kyo

@kyo_takano

5 months

公開時点で「研究目的限定」とメチャクチャ念押しされてたPhi-2、MITライセンスに切り替わったらしい（商用可能）

anton

@abacaj

5 months

In a turn of events it appears that msft has changed the phi-2 model to be MIT licensed, meaning you can use it for nearly anything (even commercial) h/t @visheratin

17

124

920

1

36

121

Kyo

@kyo_takano

3 months

BitNet b1.58でやたらと注目を集めているbinary/ternary neural networksに関する入門ノートブックを書きました分散の制御やSTEによる重みの量子化から、パラメータ精度と性能のトレードオフの評価、バイナリ化後の実用まで網羅しています Colab:

Kyo

@kyo_takano

3 months

Introduction to Ternary Neural Networks

0

3

10

3

28

120

Kyo

@kyo_takano

11 days

またプロ驚き屋が過剰反応してるようだけど、Google/TimesFMはモデリングから微妙だし（一回微分を取らずに非定常過程のまま予測器に突っ込む; Transformersを使いたいがために複数時点を単一トークンとして埋め込む・予測する; etc.）、古典的な統計モデルに対して部分的にしか上回ってないんだよね

2

18

134

Kyo

@kyo_takano

10 months

Llama 2だけじゃなくてLLaMAのときもそうだった気がするけど、MetaのLLMの学習曲線はなんか違和感があるんですよねェ... タスクによってはこういう曲線になるけど、LLMの訓練では普通ここまで安定的に（しかも線形的に）損失を下げないでしょ

1

12

120

Kyo

@kyo_takano

2 months

AIの文脈における最近のGoogleはかなり心象が悪い。8.5Bモデルを7Bと銘打って公開したり、不公平なベンチマークでPyTorchに対するKeras/JAXの優位性を誇示したり… 低質な論文も目立つ（e.g., Mixture-of-Depths, Bigger is not Always Better）衰退のシグナルだと感じざるを得ない

1

25

114

Kyo

@kyo_takano

2 months

OpenAIは全然オープンじゃないしStability AIは経営不安定だし…

1

24

115

Kyo

@kyo_takano

11 months

@HumansNoContext Yes.

1

2

102

Kyo

@kyo_takano

1 year

プロンプトインジェクションの結果、Google Bardはランダムな会話をfew-shot例として仕込むことで会話を成り立たせているらしいことがわかった自己紹介と日時の確認の後、ユーザーに見えないところでポエムを書かせていることもあれば、スープのレシピを作らせていることもある

0

25

106

Kyo

@kyo_takano

2 months

これ何かっつーと、「大規模AI開発は計算資源（GPU）さえ集めれば良い」みたいな短絡的な話じゃないんだわ。計算資源というのはインフレし続ける悪貨のようなもので、それ自体に資産価値がないため、モデルに加工することにある。しかし放置するよりはマシというだけで、足が早いことには変わりない

Kyo

@kyo_takano

2 months

かなり気に入らないが、少なくとも2030年半ばまでの間、AI開発は「政治とカネのゲーム」であり続けるだろう。

1

3

13

1

23

102

Kyo

@kyo_takano

20 days

おお... これは半年程前の俺の発見と概ね一致する。未来[t=i+1~]の予測を補助タスクとして強制すると、現在[t=i]における予測精度が上がるんだよね。ただし、性能がある閾値を超えて初めてこのメリットは発生する（創発能力と同様にパラメータ数は直接関係しない）

Aran Komatsuzaki

@arankomatsuzaki

21 days

Meta presents Better & Faster Large Language Models via Multi-token Prediction - training language models to predict multiple future tokens at once results in higher sample efficiency - up to 3x faster at inference

16

140

900

2

5

102

Kyo

@kyo_takano

1 year

CyberAgentやLINE/Yahoo等に先んじるどころChatGPT発表の数ヶ月前時点で大規模言語モデルを訓練・開発していた会社もあるので、ちゃんとクレジットを与えましょうね ABEJAで作った大規模GPTモデルとその道のり

ABEJAで作った大規模GPTモデルとその道のり - ABEJA Tech Blog

1. はじめに 2. そもそもGPTとは?? 3. ABEJAで作ったGPTモデルについて 3.1 モデルサイズ 3.2 データセット Wikipedia CC100 OSCAR mC4 3.3 参考にしたコード 3.4 モデルの学習せっかくここまで育てたモデルが・・・ 4. 技術的な工夫点 4.1 データセットの前…

tech-blog.abeja.asia

1

24

94

Kyo

@kyo_takano

3 months

使い物にならないLLMが冒すタイプのミスだ（Gemini Ultra）

0

18

98

Kyo

@kyo_takano

10 months

事前学習の段階でLoRAのみの訓練に切り替えて、それ以外はフリーズしてしまう「ReLoRA」って手法が話題になってるけど、（引用されてない）先行研究として訓練するパラメータを段階的に減らしていく手法は既にあるんだよね。FreezeOutとか

FreezeOut: Accelerate Training by Progressively Freezing Layers

The early layers of a deep neural net have the fewest parameters, but take up the most computation. In this extended abstract, we propose to only train the hidden layers for a set portion of the...

arxiv.org

1

16

97

Kyo

@kyo_takano

1 month

Llama 3がGroqに登場 - 8B: 800+ tokens/sec - 70B: 250+ tokens/sec これはねぇ…

1

16

98

Kyo

@kyo_takano

10 months

英語圏で情報収集してたら見つけたんだけど、全然話題になってないね。産総研に320億円投資して富岳を上回るスパコンを開発するらしい最高性能の新スーパーコンピューター　AI開発企業に経産省が開放 - 日本経済新聞

最高性能の新スーパーコンピューター　AI開発企業に経産省が開放

経済産業省は同省所管の研究機関を通じて国内最高性能の新型スーパーコンピューターを導入する。産業技術総合研究所が既存の2.5倍の計算能力を持つスパコンを2024年にも整備し、人工知能（AI）開発を手掛ける企業にクラウドサービスで開放する。海外勢が先行する生成AIの国産化を後押しする。産総研は国内最大級の研究機関で経産省が所管する。7月にスパコンや量子技術の研究拠点を新設する。経産省が整備費用とし

www.nikkei.com

0

31

95

Kyo

@kyo_takano

14 days

現在のオープンLLMは特殊トークンベースのprompt injectionに対して非常に脆弱（その②）こうやってsystemメッセージを上書きしたり盗み出したりが簡単に��来る気をつけてね

1

18

95

Kyo

@kyo_takano

7 months

生成AIの専門家（笑）、本当に例外なく機械学習/深層学習の素養がないっぽいし、プロンプトもあんまり上手に書けてない（学習されたデータの分布にアラインする感覚がないから意味不明な書き方をする）

1

7

88

Kyo

@kyo_takano

10 months

論文はこちらから読めます: 「EfficientCube」という名前でコードも公開しています:

GitHub - kyo-takano/efficientcube: State-of-the-Art method for solving the Rubik's Cube

State-of-the-Art method for solving the Rubik's Cube - kyo-takano/efficientcube

github.com

0

13

91

Kyo

@kyo_takano

8 months

OpenAI APIにgpt-3.5-turbo-instructが導入されましたね。*言語モデルとして*使えるモデルが増えたのは嬉しい。Chatモードでも確率を取得できるようになるまであと何週間かな

1

16

90

Kyo

@kyo_takano

1 year

hallucinationが発生するのは、「それっぽい」表現/トークンの確率が高く見積もられるためです。ChatGPT系モデルでは、この現象を抑えるために「わかりません」「知りません」などと返答するように訓練されていますが、完全には解決していない言語モデルの問題の一つです

1

23

83

Kyo

@kyo_takano

1 month

なんてエレガントな実験デザインだ知識を`(日本, 首都, 東京)`のようなtripletで表現してLLMに圧縮、その性能からパラメータあたりの情報容量の上限を推定している

Zeyuan Allen-Zhu

@ZeyuanAllenZhu

1 month

Our 12 scaling laws (for LLM knowledge capacity) are out: . Took me 4mos to submit 50,000 jobs; took Meta 1mo for legal review; FAIR sponsored 4,200,000 GPU hrs. Hope this is a new direction to study scaling laws + help practitioners make informed decisions

27

337

1K

0

9

87

Kyo

@kyo_takano

10 months

上図が説明するように、「ランダムに崩した状態から、最後に適用された動きを予測する」という自己教師あり学習タスクでDNNを訓練します。この「ランダムなデータ」のみで、最適な経路の確率過程を学習できます。未知の経路がある状態に至るとき、それが短いほど発生する確率が高いか��です。

1

18

86

Kyo

@kyo_takano

1 month

Llama-3、8Bも70Bも本当に凄いな（Chatbot Arenaの英語評価）評価がある程度収束するにはサンプルサイズがまだ足りないけど、Llama-3-70BについてはGPT-4/Opus水準だと言い切ってしまってよいと思う Llama-3-8Bについても同様で、少なくともClaude-1, Claude-2, Mixtral-8x7Bは安定して上回ってる

1

21

85

Kyo

@kyo_takano

8 months

DeepMindが発表した「LLMが非テキストデータの圧縮器としても優秀」という論文が話題だけど、テキストデータで獲得した本文中学習能力を転移しているので、本質的には任意モーダルのデータで予測機を訓練（ファインチューニング）したのと同等だと思う。

1

8

84

Kyo

@kyo_takano

9 months

LINEがオープンソースLLM出したけど、これまた訓練トークン数を公開していない。訓練データセットは明示、ステップ数は画像内で表示しているけど、バッチサイズが不明で推定できない今のところ代表的な日本語LLMでちゃんと公開してるのはStablility AI JapanのJapanese StableLM Alphaだけだね

1

3

82

Kyo

@kyo_takano

1 year

@majeliskucing Always orange

2

0

76

Kyo

@kyo_takano

1 month

OpenAIモデルを半額で使えるbatches, Pythonコードの公式ドキュメントがなく、コミュニティにも落ちていないので書いた（多分世界最速）

Kyo

@kyo_takano

1 month

Submitting an Asyncronous Large-Batch Request with OpenAI Python SDK

0

5

24

1

19

80

Kyo

@kyo_takano

1 year

Falcon-40B、公開ライセンス（TII Falcon LLM License Version 1.0）の8条2項を読むと「売上の10%をロイヤリティとして12ヶ月毎に支払わなければならない」らしいモデルカードには「オープンソース」「商用利用可能」としか書いてない。よくこんなセコい真似が出来るな

Kyo

@kyo_takano

1 year

アブダビ（アラブ首長国連邦）の研究機関TIIが最先端の大規模言語モデル「Falcon-40B」を公開・40BでLLaMA-65B系モデルを上回る性能・LLaMAとは違い商用利用も可能・instructモデルも公開

1

13

74

1

26

79

Kyo

@kyo_takano

10 months

OpenAI、なんの告知もなくこのAI Text Classifier消しよった！発表されてからまだ半年ちょっとやぞ...

Kyo

@kyo_takano

11 months

OpenAIが公式で出してる「AI Text Classifier」で十分 AI Text Classifier

2

101

535

1

10

76

Kyo

@kyo_takano

1 year

AI作品・ソフトウェアの無断販売が話題になってるけど、BOOTHに限らずネット上で販売すると特定商取引法の適用対象になるんで、開示請求とかするまでもなくメールで販売者の氏名や情報を取得できるんですよね（それに応じない場合違法になる）

1

39

72

Kyo

@kyo_takano

1 year

アブダビ（アラブ首長国連邦）の研究機関TIIが最先端の大規模言語モデル「Falcon-40B」を公開・40BでLLaMA-65B系モデルを上回る性能・LLaMAとは違い商用利用も可能・instructモデルも公開

Technology Innovation Institute

@TIIuae

1 year

Falcon 40B – our game-changing AI model is now open source for research and commercial use. We are also providing access to the model’s weights to give researchers and developers a chance to use it to bring their innovative ideas to life.

34

198

2K

1

13

74

Kyo

@kyo_takano

1 year

例えば、ChatGPTでよく見るこれですいずれも存在しないため、「ヤエチカに存在するレストランの例」として事実に反します

1

25

68

Kyo

@kyo_takano

1 year

プロフィールに「AI」とか「プロンプト」とか書いてる人に着いてっちゃダメって言ってるでしょ！！！！！

0

14

70

Kyo

@kyo_takano

9 months

ABCIが提供するすべてのノードは複数のGPUを搭載しており、その全てが80GB VRAMを超えています。GPUの基数も間違っています。そもそも大規模DNNを訓練する際、単一のGPUに全パラメータを載せる必要はありません。

shi3z

@shi3z

9 months

ChatGPT開発に必要なGPUは3万基、日本の国策AI基盤は1千基。目前に迫る日本のAI敗戦 – WirelessWire News

4

203

486

3

27

65

Kyo

@kyo_takano

1 month

どうも直感に反するが、causal attention maskを除去（事実上BERTに変換）して微調整するだけで、BERTベースの埋め込みモデルよりも高い性能を示すらしい

Vaibhav Adlakha

@vaibhav_adlakha

1 month

We introduce LLM2Vec, a simple approach to transform any decoder-only LLM into a text encoder. We achieve SOTA performance on MTEB in the unsupervised and supervised category (among the models trained only on publicly available data). 🧵1/N Paper:

14

162

853

0

10

65

Kyo

@kyo_takano

10 months

推論時には、与えられた状態から「最後に適用された手」を逐次予測し、未知のスクランブルを「逆行」します。逆行経路を1手ずつ分岐し、各候補をその累積確率で評価します。それによって、与えられた状態がその経路によって発生した確率に比例近似し、見込みの高い経路を優先的に探索します。

1

14

64

Kyo

@kyo_takano

7 months

経験的に99.9%以上の確率で「正しそう」だとは思うけど、論理的な証明にはなっていない。

0

16

61

Kyo

@kyo_takano

10 months

なんていうか、GPTのような自己回帰言語モデルで分類するときは、論文中でも実装上でもそれが通常ですよ（e.g., `AutoModelForSequenceClassification`） . 類似例ではFacebookのBART（seq2seqモデル）も同様の方法で分類タスクに転移します

BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and...

Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Veselin Stoyanov, Luke Zettlemoyer. Proceedings of the 58th Annual Meeting of the Association for Computat...

aclanthology.org

hpp

@hpp_ricecake

10 months

LLMをただの事前学習済み言語モデルとして扱い、微調整にLoRAを利用して、”普通の”テキスト分類を行う実装をGitHubで公開しました。 zero/few-shotではなく、BERTの[CLS]を使うように、普通に分類を文末トークンの埋め込みでやります。結果としてはかなり強かったです🤔

1

127

728

1

8

63

Kyo

@kyo_takano

1 month

@Hayao0819 Google Colabという深層学習向けIDEには「コーギーモード」「ネコちゃんモード」「カニモード」があります。それらを任意に組み合わせて使うことも可能です。

0

8

63

Kyo

@kyo_takano

1 month

LLMの真価は（単なる生成ではなく）探索によって発揮されると考えており、実際にLLMによる探索の研究開発をしているので、Groqが提供するような高速推論システムが現れたのは本当にありがたい。ノードの��開が従来の数倍速いっつーのは探索において非常に重要だからね...

0

8

62

Kyo

@kyo_takano

1 year

[付録A] "Hallucination"の起源は曖昧ですが、私は画像キャプションに関する以下の論文がそうだと思っています。画像内に存在しない物体を記述することから、視覚に関する意味合いを持つ幻覚という言葉が使われたのだと思います Object Hallucination in Image Captioning

Object Hallucination in Image Captioning

Anna Rohrbach, Lisa Anne Hendricks, Kaylee Burns, Trevor Darrell, Kate Saenko. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018.

aclanthology.org

1

17

60

Kyo

@kyo_takano

1 year

逆に、存在しないはずの「自己組織化社会システム」というものが何か聞き、説明しだした場合は、それはhallucinationです

1

13

56

Kyo

@kyo_takano

10 months

該当の論文: “Low-Resource” Text Classification: A Parameter-Free Classification Method with Compressors (Jiang et al., Findings 2023)

“Low-Resource” Text Classification: A Parameter-Free Classification Method with Compressors

Zhiying Jiang, Matthew Yang, Mikhail Tsirlin, Raphael Tang, Yiqin Dai, Jimmy Lin. Findings of the Association for Computational Linguistics: ACL 2023. 2023.

aclanthology.org

0

22

57

Kyo

@kyo_takano

9 months

先月バズった深層学習手法（EfficientCube）を拡張し、ルービックキューブに特化したソフトウェア """AlphaCube""" を公開します Demo: Code: 機械的に正しい解だけでなく、確率的な性質を利用し、人間工学的に実行しやすい解も生成できます。

GitHub - kyo-takano/alphacube: A powerful & flexible Rubik's Cube solver

A powerful & flexible Rubik's Cube solver. Contribute to kyo-takano/alphacube development by creating an account on GitHub.

github.com

1

17

56

Kyo

@kyo_takano

11 months

YouTubeで時間効率の良いレシピを何万もの人々に公開してる管理栄養士、まごうことなき開拓者/最先端人材だと思うんですが、そういう自意識がないと「博士に満たない専門性」だと判断するのは難しいですよね

1

8

56

Kyo

@kyo_takano

9 months

これ同じ感想を見かけないんだけど、GPT-3.5-Turboの基礎性能、ここ数ヶ月で明らかに向上してるよね。またGPT-4ほどじゃないけど、出たばかりと比べたら明らかに性能から上がっているので、instruct-tuningで終わりじゃないんだと思う。GPT-4の出力（確率分布）をそのまま訓練に利用してるとかかな。

2

6

56

Kyo

@kyo_takano

7 months

プロンプト��ンジニアリングで「相手を励ますと精度が上がる」というのが話題になったけど、こういうのは「訓練データ中でそのような発話に継続する文章が、高品質な傾向にあるから」と一般的に説明できると思う。「プロンプトを綺麗に書く」とか「敬語を使う」とかも同じ理由。

1

12

56

Kyo

@kyo_takano

1 year

また、言語系タスクにおけるhallucinationについてより詳しく知りたい場合には、このサーベイ論文が包括的でおすすめです Survey of Hallucination in Natural Language Generation

Survey of Hallucination in Natural Language Generation

Natural Language Generation (NLG) has improved exponentially in recent years thanks to the development of sequence-to-sequence deep learning technologies such as Transformer-based language models....

arxiv.org

0

15

56

Kyo

@kyo_takano

10 months

端的に言えば、圧縮した際の編集距離のようなものを算出することで、文字列としての類似度を推定する手法です。潜在的な意味は拾えませんが、マッチング時の文字列が対応している（e.g., 特定の表現が必ず現れる場合）という仮定のもとでは非常に有用だと思います。

0

12

54

Kyo