Kyo Profile Banner
Kyo Profile
Kyo

@kyo_takano

2,041
Followers
0
Following
487
Media
6,117
Statuses

Scaling neural networks for language modeling & search. 🧩 State-of-the-art Rubik's Cube AI: ⚖️ Scaling law research toolkit:

Don't wanna be here? Send us removal request.
Pinned Tweet
@kyo_takano
Kyo
10 months
単著論文「Self-Supervision is All You Need for Solving Rubik’s Cube」が #TMLR ’23に採択されました🎉 「スクランブルの最終手を予測する」という単純なタスクによって、ルービックキューブのような組み合わせ探索問題を近最適に解けることを示しました(先行手法DeepCubeAを上回り、SOTAを達成)
@TmlrPub
Accepted papers at TMLR
10 months
Self-Supervision is All You Need for Solving Rubik’s Cube Kyo Takano. Action editor: Marc Lanctot. #rubik #cube #deepcubea
0
10
47
4
255
1K
@kyo_takano
Kyo
1 year
これは良くない使い方で、ハルシネーションという現象を引き起こすので避けましょう(※落合陽一さんフォーマット?自体は悪くありません)
@FXWOLF2
WOLF
1 year
論文読む前に落合陽一さんフォーマットでChatGPTに聞くと理解が捗る。2021年以前の論文ならだいたいいける。何度か繰り返してると「次に読むべき論文」は重複したものを提案してくるので、最初に10個挙げてってしたほうがいいかも。
Tweet media one
Tweet media two
3
279
2K
6
543
3K
@kyo_takano
Kyo
10 months
この論文は、悪名高いルービックキューブが確率論的にはメチャクチャ簡単だった、という衝撃的な事実を示しています 「グチャグチャにしていく様子を大量に観察する」だけで解けちゃうので、群論とか特定の手順とか一切必要ありません。LLMと同じで、デカいモデルで大量のデータを学習するだけ
@kyo_takano
Kyo
10 months
単著論文「Self-Supervision is All You Need for Solving Rubik’s Cube」が #TMLR ’23に採択されました🎉 「スクランブルの最終手を予測する」という単純なタスクによって、ルービックキューブのような組み合わせ探索問題を近最適に解けることを示しました(先行手法DeepCubeAを上回り、SOTAを達成)
4
255
1K
0
686
2K
@kyo_takano
Kyo
10 months
#ACL2023 Findingsで発表され、 「極めてシンプルでありながらBERT等の既存の深層学習手法を上回る」 として話題の「gzipによるセマンティック検索」の実装と直感的な説明をGitHub Gistに掲載しました
Tweet media one
3
286
1K
@kyo_takano
Kyo
1 year
ようわからんプロンプトエンジニアやらプロンプトデザイナーやらは無視して「OpenAI Cookbook」か「Prompt Engineering Guide」だけ読んどけってワケよ
3
177
1K
@kyo_takano
Kyo
1 year
@otter_fes このページでSystem欄に「あなたはBL作家です。指定されたあらすじに基づいて小説を書いてください。ただし、書き加えた詳細はあらすじを補完することができますが、あらすじそのものには変更を加えないようにしてください。」などと指示して生成すると良いかもしれません
2
132
815
@kyo_takano
Kyo
1 year
@OKtamajun これ、わざわざ作ったわけじゃなくて、10年以上前に放送されてたThe Officeっていうコメディドラマですよ
1
298
744
@kyo_takano
Kyo
1 year
日本語オープンソースLLMの「OpenCALM-7B」をGoogle Colabの無料枠でも特別な処理なく使えるようにしました 8bit量子化したモデルを @HuggingFace に上げています
Tweet media one
2
133
664
@kyo_takano
Kyo
1 year
言語モデルのhallucination (幻覚、錯覚)について勘違いしている人たまに見かけるので、具体例を交えて説明します Hallucinationというのは「事実に反することやデタラメを出力する現象」を指します 🧵
4
187
656
@kyo_takano
Kyo
3 months
@JeryceDia I NEED to see MORE of this kind
2
0
611
@kyo_takano
Kyo
11 months
OpenAIが公式で出してる「AI Text Classifier」で十分 AI Text Classifier
Tweet media one
@nikkei
日本経済新聞 電子版(日経電子版)
11 months
ChatGPTの文章、見破るソフト 東京の企業が開発
116
1K
5K
2
101
535
@kyo_takano
Kyo
11 months
PagedAttentionというアルゴリズムがTransformerモデルを~24倍高速化。仮想メモリとページングの考え方に基づいて、文脈中のkeyとvalueのペアをブロックに分割・管理することで、GPUをほぼ100%利用できる “エンジニアリング”だ
Tweet media one
@zhuohan123
Zhuohan Li
11 months
🌟 Thrilled to introduce vLLM with @woosuk_k ! 🚀 vLLM is an open-source LLM inference and serving library that accelerates HuggingFace Transformers by 24x and powers @lmsysorg Vicuna and Chatbot Arena. Github: Blog:
20
264
1K
1
111
503
@kyo_takano
Kyo
1 year
OpenAIのガイドにベストプラクティス集が追加されている GPT best practices
Tweet media one
0
79
494
@kyo_takano
Kyo
11 months
昨晩OpenAIが発表したFunction Callingの実装例がOpenAI Cookbookにアップロードされてますね(1時間前)
1
70
483
@kyo_takano
Kyo
4 months
これ超凄い最適化なのに、テクニカルすぎるのかあんまり注目浴びてないの可哀想 GPUの数にもよるけど、(LLMだけじゃない)大規模NNの訓練を20~30%まで高速化し得るって
@sivil_taram
Qian Liu 🔭
4 months
The pipeline parallelism is necessary in the era of LLM training, but a common issue is that there are bubbles. But what if someone told you that you can live without bubbles? ✨Check out the work ℤ𝕖𝕣𝕠 𝔹𝕦𝕓𝕓𝕝𝕖 ℙ𝕚𝕡𝕖𝕝𝕚𝕟𝕖 ℙ𝕒𝕣𝕒𝕝𝕝𝕖𝕝𝕚𝕤𝕞 from Sea AI Lab!🚀
7
74
432
3
102
440
@kyo_takano
Kyo
7 months
某オセロ論文の弱解決証明は不完全(近似的)だと思う まず、恣意的な閾値によるalpha-beta刈り込みを行っているので、探索に漏れがないという保証がない(Sec.3.4~3.5)。 それと、任意のデータセットで反例が観測されなかったことは、仮説の正しさを確率的にしか示さない(Sec.4.1)。
2
146
430
@kyo_takano
Kyo
8 months
Microsoftが”Textbooks Are All You Need”のphi-1とその後継モデルphi-1.5をHugging Faceで公開したの、とんでもないことの筈なのに注目されてなさすぎる。日本語圏だけならまだしも、英語圏でさえそこまで大した話題にはなってない。プロ驚き屋は何処へ行ってしまったのか…
1
60
324
@kyo_takano
Kyo
3 months
Groq 速すぎる マジで1秒で返ってくる なにこれ
Tweet media one
3
65
322
@kyo_takano
Kyo
1 year
OpenAIがロボット研究開発チームを解散してから2〜3年 (推定) この転換の背景には「環境からデータを生成可能な強化学習よりも、事前学習の方が"AGI"を開発する上で遥かに効率が良い」という判断があったらしい Wojciech Zaremba — What Could Make AI Conscious?
1
66
314
@kyo_takano
Kyo
1 year
あー、Midjourney触ったことある人なら分かるけど、生成された画像リストの下に「高解像度化」「バリエーション生成」「全てやり直し」のボタンが並んでるんだよね これを基に強化学習(ChatGPTよりも直接的で単純なRLHF)を実行して品質を上げてるんじゃないかって考察
@DrJimFan
Jim Fan
1 year
My guess is that MidJourney has been doing a massive-scale reinforcement learning from human feedback ("RLHF") - possibly the largest ever for text-to-image. When human users choose to upscale an image, it's because they prefer it over the alternatives. It'd be a huge waste not
Tweet media one
109
402
4K
1
89
300
@kyo_takano
Kyo
1 year
CyberAgentが開発した話題の日本語言語モデル、非技術者でも簡単に使えるようにしました。HuggingFace Spaces ( @HuggingFace )を利用しています。 OpenCALM-7B (非公式)
1
92
286
@kyo_takano
Kyo
9 months
いやOpenAIのファインチューニングはLoRAじゃなくてprefix-tuningだと思う。端的に言えば「文脈冒頭に特殊トークンを挿入する」だけだから、訓練データ量が少なすぎて元の性能が損なわれるということがないし、推論時もデプロイや複雑な操作を要求しない。ストレージもほとんど圧迫しないし
1
28
281
@kyo_takano
Kyo
20 days
ゾルトラークとか言うやつ、ただのコーディングエージェントじゃん笑 しかも超ナイーブな設計 プロンプトもこんなんだし(文字列の基本的な処理が出来ていない; コードをブロックで記述していない; LLMに差分ファイルを書かせている; etc.)
Tweet media one
Tweet media two
2
39
283
@kyo_takano
Kyo
17 days
「メモリ全盛りMac Studio(100万円)がLLMコスパ最高!」みたいなのも全くの見当違いだよ 例えばLlama 3 70Bなら、Fireworks等が100+ tok/sで提供する一方、Mac Studioは10 tok/sすら出ない。 電気代を無視しても、同じコストで74億トークンは使える
4
49
285
@kyo_takano
Kyo
1 year
大規模言語モデルこの文脈で「全裸中年男性」を生成する確率は約0.00000000001% (=e^-29.74)。決してAIには書けない芸術的な文章ですね
Tweet media one
@jimanalyze
歴ログ(尾登 雄平:世界史ブロガー・ライター)
1 year
AERAの小泉悠さんインタビュー読んだ。 文末がしびれました。
Tweet media one
14
4K
7K
0
75
274
@kyo_takano
Kyo
1 year
これ典型的なhallucinationなんで真に受けないようにしましょう どの言語を「どれだけ学習して」「どれだけ得意か」、GPTは明示的に教えられていません 一般的に知られる言語別の難易度とパブリックデータ量からの雑な予測値を返していると考えるのが自然です。そもそも試行毎に結果が異なります
@iritec_jp
入江慎吾 / GPT4+Claude3 Opusが月1,000円で使えるオートロン
1 year
GPTを使ったプログラミング開発の効率を上げるには「Python」を使うのがよさそう。 なぜならPythonの理解度が100%に比べて他の言語はGPTの回答によるとこんな感じ。 ・Python: 100% ・JavaScript: 80% ・Java: 75% ・C++: 70% ・C#: 65% ・Ruby: 60% ・PHP: 50%
Tweet media one
17
320
2K
2
76
272
@kyo_takano
Kyo
1 year
俺が使ってる論理学的プロンプトは例えばこんな感じ 1. 推論ゴールの設定 2. 前提(条件と知識)の確認 3. CoTで推論 4. 結論 Fine-grained Chain-of-Thought Promptingって呼んでる。こういうのを分類ごとにいくつか用意しといてfew-shotで推論すると便利だよ
Tweet media one
1
32
261
@kyo_takano
Kyo
1 year
学習データに入っているからといって、それら全てに対して忠実に学習しているわけではありません。このケースでは、GPT-4がタイトルから予測される「それっぽい単語」を逐次生成しているに過ぎません
@FXWOLF2
WOLF
1 year
@FX180507 大量の論文が学習データに入ってるみたいなので、このプロンプトでだいたいの論文の要約をしてくれますが、GPTがリアルタイムにアクセスするわけではないです。2021年以前と書いてるのはそういう理由ですね☺URLは、ちょっとでも精度上がるといいなってことで念のため入れてます。
1
0
3
2
63
261
@kyo_takano
Kyo
10 days
「ローカルLLMはこーやって使うの💢」を更新しました 以下を追加: - 前提知識の確認 - 特殊トークンによるプロンプトインジェクション - 尤度関数としての利用
Tweet media one
Tweet media two
0
72
399
@kyo_takano
Kyo
1 year
某社(社員)による「日本人の気質・属性を持ち上げるポジショントーク」を、政府や国民が特に抵抗もせず享受している構図、個人的にかなり気持ち悪い。
2
33
235
@kyo_takano
Kyo
2 months
BitNet b1.58、再現したらしい… 信じられん(信じていない)
@teortaxesTex
Teortaxes▶️
2 months
It seems that results of that Microsoft paper about ternary LLMs can be replicated after all – for 3B @100B at least.
Tweet media one
18
97
695
1
43
233
@kyo_takano
Kyo
3 months
何度でも言うけど、MBTIには商標があるのみで国際規格なんてものは存在しないし、そもそもデータに基づかない感覚的な"理論"をベースに作られた疑似科学的尺度なんで、心理学研究では決して推奨されていない。
@si271828
しぃ🤓チー牛社不おじさん
3 months
日本MBTI協会は、件のMBTI診断を「MBTIもどき」と呼んでブチ切れている。
Tweet media one
12
5K
20K
0
85
226
@kyo_takano
Kyo
10 months
ただの成り行きだから大きな話題になってないけど、オープンLLMを動かすラップトップ環境としては大容量GPU (M1/M2)内蔵のMacBookが事実上のスタンダードとして定着しつつあるね 16GB/24GB GPU搭載のハイエンドゲーミングラップトップとかも選択肢としては挙げられるけど、普通にMacbookのほうが安い
2
46
228
@kyo_takano
Kyo
2 months
「AIがプログラマーを代替しつつある」と騒ぐ声が聞こえてくるが、向こう10年間のプログラマーの需要はむしろ増えると思う。単に「コードもプロンプトも書ける人材が求められていく」とかじゃなくてね
2
42
221
@kyo_takano
Kyo
1 year
勘違いしてる人を見かけるので紹介しておきますが、現時点で「公開されている」最大の日本語言語モデルはrinnaの10億パラメータモデルではなく、ABEJAの27億パラメータモデルです 非公開ですが、ABEJAは67億・130億モデルも所有しています(現状世界一だと思う)
0
39
218
@kyo_takano
Kyo
11 months
アカデミア、「知のフロンティアを開拓してるのはPhDの俺達”だけ”」みたいな暗黙的な自意識を感じる。そういうとこやぞ
1
40
212
@kyo_takano
Kyo
6 months
Photographerならぬphotograperなら仕方ありませんね♪
Tweet media one
@wakaru9922
ワカル
6 months
成田山の紅葉空間がまるで絵画だった。
Tweet media one
532
4K
15K
0
47
197
@kyo_takano
Kyo
4 months
やっと見つかった。いくつかのタスクごとにNNを千個訓練し、同一のデータから学習する場合の性能の分散のほとんどが「初期化のランダム性」によって説明される事を示す論文 Calibrated Chaos: Variance Between Runs of Neural Network Training is Harmless and Inevitable
0
38
197
@kyo_takano
Kyo
10 months
OpenAI APIが提供するFunction Callingでfew-shot学習を行う方法をGitHub Gistで公開しました Few-Shot Learning on Function Calling
1
25
193
@kyo_takano
Kyo
1 year
Hallucinationとは:
@kyo_takano
Kyo
1 year
言語モデルのhallucination (幻覚、錯覚)について勘違いしている人たまに見かけるので、具体例を交えて説明します Hallucinationというのは「事実に反することやデタラメを出力する現象」を指します 🧵
4
187
656
1
44
180
@kyo_takano
Kyo
1 year
ここで可視化されてるのは言語モデルの内部状態じゃなくてプロンプトとその返答のベクトル表現(embeddings)だし、 t-SNEは生物学に限らず広く使われる高次元データ可視化ツールです
@forasteran
forasteran
1 year
面白い☺️ ↓ LLMの一種であるGPT4ALLの内部状態を可視化したサイトが公開された 可視化に使われたt-SNEは一細胞解析というゲノム科学の最先端の解析に多用される可視化ツール 生物学とLLMの親和性あるね ↓ LLMは生物学で捉えられるものかもしれない
Tweet media one
Tweet media two
Tweet media three
2
268
932
1
41
162
@kyo_takano
Kyo
1 year
エッジ推論をアレしてて、ラズパイ標準搭載GPUで高速画像処理を可能にしたIdeinさんを思い出して調べたら、ラズパイに外部GPU("Hailo-8")を更に搭載したデバイスを開発していた Idein、アイシンが開発するエッジAIカメラ「AI Cast」にエッジAI技術を提供
1
38
151
@kyo_takano
Kyo
2 months
Sakana AIのmerge論文の重要性は、「*潜在空間をalignせずとも*Frankenmergeが機能する順列がある」という発見にあると思う
Tweet media one
1
22
144
@kyo_takano
Kyo
1 year
各所で「LLMが本文中学習出来るのはTransformerの注意機構が逐次ネットワークを再構成してくれるお陰!」みたいな言論を見るけど、 正確には「Transformerにおいては注意機構によってネットワークを再構成するのが継続トークン予測における効率が良いからそうなっている」というだけですからね
1
21
133
@kyo_takano
Kyo
3 months
Groq CEOのJonathan Ross氏、何処かで見た名前だと思ったら、Google TPUの生みの親じゃん。彼の20%プロジェクトから派生したものらしい
Tweet media one
@kyo_takano
Kyo
3 months
Groq 速すぎる マジで1秒で返ってくる なにこれ
Tweet media one
3
65
322
1
33
131
@kyo_takano
Kyo
5 months
公開時点で「研究目的限定」とメチャクチャ念押しされてたPhi-2、MITライセンスに切り替わったらしい(商用可能)
@abacaj
anton
5 months
In a turn of events it appears that msft has changed the phi-2 model to be MIT licensed, meaning you can use it for nearly anything (even commercial) h/t @visheratin
Tweet media one
17
124
920
1
36
121
@kyo_takano
Kyo
3 months
BitNet b1.58でやたらと注目を集めているbinary/ternary neural networksに関する入門ノートブックを書きました 分散の制御やSTEによる重みの量子化から、パラメータ精度と性能のトレードオフの評価、バイナリ化後の実用まで網羅しています Colab:
Tweet media one
Tweet media two
@kyo_takano
Kyo
3 months
Introduction to Ternary Neural Networks
0
3
10
3
28
120
@kyo_takano
Kyo
11 days
またプロ驚き屋が過剰反応してるようだけど、Google/TimesFMはモデリングから微妙だし(一回微分を取らずに非定常過程のまま予測器に突っ込む; Transformersを使いたいがために複数時点を単一トークンとして埋め込む・予測する; etc.)、古典的な統計モデルに対して部分的にしか上回ってないんだよね
2
18
134
@kyo_takano
Kyo
10 months
Llama 2だけじゃなくてLLaMAのときもそうだった気がするけど、MetaのLLMの学習曲線はなんか違和感があるんですよねェ... タスクによってはこういう曲線になるけど、LLMの訓練では普通ここまで安定的に(しかも線形的に)損失を下げないでしょ
Tweet media one
1
12
120
@kyo_takano
Kyo
2 months
AIの文脈における最近のGoogleはかなり心象が悪い。8.5Bモデルを7Bと銘打って公開したり、不公平なベンチマークでPyTorchに対するKeras/JAXの優位性を誇示したり… 低質な論文も目立つ(e.g., Mixture-of-Depths, Bigger is not Always Better) 衰退のシグナルだと感じざるを得ない
1
25
114
@kyo_takano
Kyo
2 months
OpenAIは全然オープンじゃないしStability AIは経営不安定だし…
1
24
115
@kyo_takano
Kyo
11 months
1
2
102
@kyo_takano
Kyo
1 year
プロンプトインジェクションの結果、Google Bardはランダムな会話をfew-shot例として仕込むことで会話を成り立たせているらしいことがわかった 自己紹介と日時の確認の後、ユーザーに見えないところでポエムを書かせていることもあれば、スープのレシピを作らせていることもある
Tweet media one
Tweet media two
Tweet media three
Tweet media four
0
25
106
@kyo_takano
Kyo
2 months
これ何かっつーと、「大規模AI開発は計算資源(GPU)さえ集めれば良い」みたいな短絡的な話じゃないんだわ。計算資源というのはインフレし続ける悪貨のようなもので、それ自体に資産価値がないため、モデルに加工することにある。しかし放置するよりはマシというだけで、足が早いことには変わりない
@kyo_takano
Kyo
2 months
かなり気に入らないが、少なくとも2030年半ばまでの間、AI開発は「政治とカネのゲーム」であり続けるだろう。
1
3
13
1
23
102
@kyo_takano
Kyo
20 days
おお... これは半年程前の俺の発見と概ね一致する。 未来[t=i+1~]の予測を補助タスクとして強制すると、現在[t=i]における予測精度が上がるんだよね。ただし、性能がある閾値を超えて初めてこのメリットは発生する(創発能力と同様にパラメータ数は直接関係しない)
@arankomatsuzaki
Aran Komatsuzaki
21 days
Meta presents Better & Faster Large Language Models via Multi-token Prediction - training language models to predict multiple future tokens at once results in higher sample efficiency - up to 3x faster at inference
Tweet media one
16
140
900
2
5
102
@kyo_takano
Kyo
3 months
使い物にならないLLMが冒すタイプのミスだ(Gemini Ultra)
Tweet media one
0
18
98
@kyo_takano
Kyo
10 months
事前学習の段階でLoRAのみの訓練に切り替えて、それ以外はフリーズしてしまう「ReLoRA」って手法が話題になってるけど、(引用されてない)先行研究として訓練するパラメータを段階的に減らしていく手法は既にあるんだよね。FreezeOutとか
1
16
97
@kyo_takano
Kyo
1 month
Llama 3がGroqに登場 - 8B: 800+ tokens/sec - 70B: 250+ tokens/sec これはねぇ…
Tweet media one
Tweet media two
Tweet media three
1
16
98
@kyo_takano
Kyo
14 days
現在のオープンLLMは特殊トークンベースのprompt injectionに対して非常に脆弱(その②) こうやってsystemメッセージを上書きしたり盗み出したりが簡単に��来る 気をつけてね
Tweet media one
1
18
95
@kyo_takano
Kyo
7 months
生成AIの専門家(笑)、本当に例外なく機械学習/深層学習の素養がないっぽいし、プロンプトもあんまり上手に書けてない(学習されたデータの分布にアラインする感覚がないから意味不明な書き方をする)
1
7
88
@kyo_takano
Kyo
8 months
OpenAI APIにgpt-3.5-turbo-instructが導入されましたね。*言語モデルとして*使えるモデルが増えたのは嬉しい。Chatモードでも確率を取得できるようになるまであと何週間かな
Tweet media one
1
16
90
@kyo_takano
Kyo
1 year
hallucinationが発生するのは、「それっぽい」表現/トークンの確率が高く見積もられるためです。ChatGPT系モデルでは、この現象を抑えるために「わかりません」「知りません」などと返答するように訓練されていますが、完全には解決していない言語モデルの問題の一つです
1
23
83
@kyo_takano
Kyo
1 month
なんてエレガントな実験デザインだ 知識を`(日本, 首都, 東京)`のようなtripletで表現してLLMに圧縮、その性能からパラメータあたりの情報容量の上限を推定している
@ZeyuanAllenZhu
Zeyuan Allen-Zhu
1 month
Our 12 scaling laws (for LLM knowledge capacity) are out: . Took me 4mos to submit 50,000 jobs; took Meta 1mo for legal review; FAIR sponsored 4,200,000 GPU hrs. Hope this is a new direction to study scaling laws + help practitioners make informed decisions
Tweet media one
27
337
1K
0
9
87
@kyo_takano
Kyo
10 months
上図が説明するように、「ランダムに崩した状態から、最後に適用された動きを予測する」という自己教師あり学習タスクでDNNを訓練します。 この「ランダムなデータ」のみで、最適な経路の確率過程を学習できます。未知の経路がある状態に至るとき、それが短いほど発生する確率が高いか���です。
1
18
86
@kyo_takano
Kyo
1 month
Llama-3、8Bも70Bも本当に凄いな(Chatbot Arenaの英語評価) 評価がある程度収束するにはサンプルサイズがまだ足りないけど、Llama-3-70BについてはGPT-4/Opus水準だと言い切ってしまってよいと思う Llama-3-8Bについても同様で、少なくともClaude-1, Claude-2, Mixtral-8x7Bは安定して上回ってる
Tweet media one
1
21
85
@kyo_takano
Kyo
8 months
DeepMindが発表した「LLMが非テキストデータの圧縮器としても優秀」という論文が話題だけど、テキストデータで獲得した本文中学習能力を転移しているので、本質的には任意モーダルのデータで予測機を訓練(ファインチューニング)したのと同等だと思う。
1
8
84
@kyo_takano
Kyo
9 months
LINEがオープンソースLLM出したけど、これまた訓練トークン数を公開していない。訓練データセットは明示、ステップ数は画像内で表示しているけど、バッチサイズが不明で推定できない 今のところ代表的な日本語LLMでちゃんと公開してるのはStablility AI JapanのJapanese StableLM Alphaだけだね
1
3
82
@kyo_takano
Kyo
1 year
@majeliskucing Always orange
2
0
76
@kyo_takano
Kyo
1 month
OpenAIモデルを半額で使えるbatches, Pythonコードの公式ドキュメントがなく、コミュニティにも落ちていないので書いた(多分世界最速)
@kyo_takano
Kyo
1 month
Submitting an Asyncronous Large-Batch Request with OpenAI Python SDK
0
5
24
1
19
80
@kyo_takano
Kyo
1 year
Falcon-40B、公開ライセンス(TII Falcon LLM License Version 1.0)の8条2項を読むと「売上の10%をロイヤリティとして12ヶ月毎に支払わなければならない」らしい モデルカードには「オープンソース」「商用利用可能」としか書いてない。よくこんなセコい真似が出来るな
@kyo_takano
Kyo
1 year
アブダビ(アラブ首長国連邦)の研究機関TIIが最先端の大規模言語モデル「Falcon-40B」を公開 ・40BでLLaMA-65B系モデルを上回る性能 ・LLaMAとは違い商用利用も可能 ・instructモデルも公開
Tweet media one
Tweet media two
1
13
74
1
26
79
@kyo_takano
Kyo
10 months
OpenAI、なんの告知もなくこのAI Text Classifier消しよった!発表されてからまだ半年ちょっとやぞ...
Tweet media one
@kyo_takano
Kyo
11 months
OpenAIが公式で出してる「AI Text Classifier」で十分 AI Text Classifier
Tweet media one
2
101
535
1
10
76
@kyo_takano
Kyo
1 year
AI作品・ソフトウェアの無断販売が話題になってるけど、BOOTHに限らずネット上で販売すると特定商取引法の適用対象になるんで、開示請求とかするまでもなくメールで販売者の氏名や情報を取得できるんですよね(それに応じない場合違法になる)
1
39
72
@kyo_takano
Kyo
1 year
アブダビ(アラブ首長国連邦)の研究機関TIIが最先端の大規模言語モデル「Falcon-40B」を公開 ・40BでLLaMA-65B系モデルを上回る性能 ・LLaMAとは違い商用利用も可能 ・instructモデルも公開
Tweet media one
Tweet media two
@TIIuae
Technology Innovation Institute
1 year
Falcon 40B – our game-changing AI model is now open source for research and commercial use. We are also providing access to the model’s weights to give researchers and developers a chance to use it to bring their innovative ideas to life.
34
198
2K
1
13
74
@kyo_takano
Kyo
1 year
例えば、ChatGPTでよく見るこれです いずれも存在しないため、「ヤエチカに存在するレストランの例」として事実に反します
Tweet media one
1
25
68
@kyo_takano
Kyo
1 year
プロフィールに「AI」とか「プロンプト」とか書いてる人に着いてっちゃダメって言ってるでしょ!!!!!
0
14
70
@kyo_takano
Kyo
9 months
ABCIが提供するすべてのノードは複数のGPUを搭載しており、その全てが80GB VRAMを超えています。GPUの基数も間違っています。 そもそも大規模DNNを訓練する際、単一のGPUに全パラメータを載せる必要はありません。
@shi3z
shi3z
9 months
ChatGPT開発に必要なGPUは3万基、日本の国策AI基盤は1千基。目前に迫る日本のAI敗戦 – WirelessWire News
4
203
486
3
27
65
@kyo_takano
Kyo
1 month
どうも直感に反するが、causal attention maskを除去(事実上BERTに変換)して微調整するだけで、BERTベースの埋め込みモデルよりも高い性能を示すらしい
Tweet media one
@vaibhav_adlakha
Vaibhav Adlakha
1 month
We introduce LLM2Vec, a simple approach to transform any decoder-only LLM into a text encoder. We achieve SOTA performance on MTEB in the unsupervised and supervised category (among the models trained only on publicly available data). 🧵1/N Paper:
Tweet media one
14
162
853
0
10
65
@kyo_takano
Kyo
10 months
推論時には、与えられた状態から「最後に適用された手」を逐次予測し、未知のスクランブルを「逆行」します。 逆行経路を1手ずつ分岐し、各候補をその累積確率で評価します。それによって、与えられた状態がその経路によって発生した確率に比例近似し、見込みの高い経路を優先的に探索します。
1
14
64
@kyo_takano
Kyo
7 months
経験的に99.9%以上の確率で「正しそう」だとは思うけど、論理的な証明にはなっていない。
0
16
61
@kyo_takano
Kyo
10 months
なんていうか、GPTのような自己回帰言語モデルで分類するときは、論文中でも実装上でもそれが通常ですよ(e.g., `AutoModelForSequenceClassification`) . 類似例ではFacebookのBART(seq2seqモデル)も同様の方法で分類タスクに転移します
@hpp_ricecake
hpp
10 months
LLMをただの事前学習済み言語モデルとして扱い、微調整にLoRAを利用して、”普通の”テキスト分類を行う実装をGitHubで公開しました。 zero/few-shotではなく、BERTの[CLS]を使うように、普通に分類を文末トークンの埋め込みでやります。 結果としてはかなり強かったです🤔
Tweet media one
1
127
728
1
8
63
@kyo_takano
Kyo
1 month
@Hayao0819 Google Colabという深層学習向けIDEには 「コーギーモード」 「ネコちゃんモード」 「カニモード」 があります。それらを任意に組み合わせて使うことも可能です。
Tweet media one
Tweet media two
Tweet media three
Tweet media four
0
8
63
@kyo_takano
Kyo
1 month
LLMの真価は(単なる生成ではなく)探索によって発揮されると考えており、実際にLLMによる探索の研究開発をしているので、Groqが提供するような高速推論システムが現れたのは本当にありがたい。ノードの���開が従来の数倍速いっつーのは探索において非常に重要だからね...
0
8
62
@kyo_takano
Kyo
1 year
[付録A] "Hallucination"の起源は曖昧ですが、私は画像キャプションに関する以下の論文がそうだと思っています。画像内に存在しない物体を記述することから、視覚に関する意味合いを持つ幻覚という言葉が使われたのだと思います Object Hallucination in Image Captioning
1
17
60
@kyo_takano
Kyo
1 year
逆に、存在しないはずの「自己組織化社会システム」というものが何か聞き、説明しだした場合は、それはhallucinationです
Tweet media one
1
13
56
@kyo_takano
Kyo
9 months
先月バズった深層学習手法(EfficientCube)を拡張し、ルービックキューブに特化したソフトウェア """AlphaCube""" を公開します Demo: Code: 機械的に正しい解だけでなく、確率的な性質を利用し、人間工学的に実行しやすい解も生成できます。
1
17
56
@kyo_takano
Kyo
11 months
YouTubeで時間効率の良いレシピを何万もの人々に公開してる管理栄養士、まごうことなき開拓者/最先端人材だと思うんですが、そういう自意識がないと「博士に満たない専門性」だと判断するのは難しいですよね
1
8
56
@kyo_takano
Kyo
9 months
これ同じ感想を見かけないんだけど、GPT-3.5-Turboの基礎性能、ここ数ヶ月で明らかに向上してるよね。またGPT-4ほどじゃないけど、出たばかりと比べたら明らかに性能から上がっているので、instruct-tuningで終わりじゃないんだと思う。GPT-4の出力(確率分布)をそのまま訓練に利用してるとかかな。
2
6
56
@kyo_takano
Kyo
7 months
プロンプト���ンジニアリングで「相手を励ますと精度が上がる」というのが話題になったけど、こういうのは「訓練データ中でそのような発話に継続する文章が、高品質な傾向にあるから」と一般的に説明できると思う。「プロンプトを綺麗に書く」とか「敬語を使う」とかも同じ理由。
1
12
56
@kyo_takano
Kyo
1 year
また、言語系タスクにおけるhallucinationについてより詳しく知りたい場合には、このサーベイ論文が包括的でおすすめです Survey of Hallucination in Natural Language Generation
0
15
56
@kyo_takano
Kyo
10 months
端的に言えば、圧縮した際の編集距離のようなものを算出することで、文字列としての類似度を推定する手法です。潜在的な意味は拾えませんが、マッチング時の文字列が対応している(e.g., 特定の表現が必ず現れる場合)という仮定のもとでは非常に有用だと思います。
0
12
54
@kyo_takano
Kyo
9 months
ファインチューニングの主目的は「新たな知識を付与する」よりかは「推論・生成のフォーマットを明確にする」ことにあります。おっしゃる通りfew-shot等でも同じことは可能ですね
@r2en_
イニレカちゃん🧧
9 months
特定ドメインの知識の回答性能上げつつ、汎用の回答性能そのままという感じなのが良い! とはいえ、In-context learningとPromptとGPT4で直接参照してもらうほうが応答性能高そうな所感
0
0
10
1
12
55
@kyo_takano
Kyo
9 months
LLMのファインチューニングで新たな知識を付与できないというのは普通に言い過ぎでしょ。本来の慣習に従ったフルパラメータファインチューニングであれば当たり前に可能だし、効率が劇的に落ちるというだけで、PEFTでも決して不可能ではない(更新/新たに付与するパラメータ数に依存する)ので。
0
9
54
@kyo_takano
Kyo
1 year
OpenAI Cookbookの方はエンジニア向けにゴチャゴチャし始めちゃってるんで、もうPrompt Engineering Guide (DAIR)だけ読んでおくのが良さそう どうしてもCookbook読みたい非エンジニアは「Guide:」で始まるページだけ探して読みましょう
Tweet media one
0
8
55
@kyo_takano
Kyo
6 months
アイスランドにはハカールというのがあり、サメの肉を発酵・乾燥させることで毒を処理して食べる。めちゃくちゃ臭いし普通に腹も壊す。 Hákarl
@gattsuri_eat
食べる🍳
6 months
「世界で初めて〇〇を食ったやつすごすぎだろ」ってやつは日本だとたいがい納豆とかウニとかコンニャクだけど、カナダ人のコメディアンが「カエデの木にパイプを刺しておけばデザートの完成だって最初に言い出したやつは英雄だ」って言ってて、これの世界各地のやつ知りたいなと思った
1
9K
52K
0
15
54