概要
Mamba2アーキテクチャのモデルです。 context sizeは512です。
dataset
hotchpotch/fineweb-2-edu-japaneseの1%のデータで10 epochs回しました。
tokenizer
Rakuten/RakutenAI-2.0-mini-instructを使用しました。 日本語対応LLMであり、vocab_sizeが48000と学習に使いやすそうだったからです。」
- Downloads last month
- 11
Mamba2アーキテクチャのモデルです。 context sizeは512です。
hotchpotch/fineweb-2-edu-japaneseの1%のデータで10 epochs回しました。
Rakuten/RakutenAI-2.0-mini-instructを使用しました。 日本語対応LLMであり、vocab_sizeが48000と学習に使いやすそうだったからです。」