概要

Mamba2アーキテクチャのモデルです。 context sizeは512です。

dataset

hotchpotch/fineweb-2-edu-japaneseの1%のデータで10 epochs回しました。

Rakuten/RakutenAI-2.0-mini-instructを使用しました。日本語対応LLMであり、vocab_sizeが48000と学習に使いやすそうだったからです。」

Safetensors

Model size

286M params

Tensor type

BF16