{
  "architectures": [
    "ArceeKDAForCausalLM"
  ],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "auto_map": {
    "AutoConfig": "configuration_arcee_kda.ArceeKDAConfig",
    "AutoModel": "modeling_arcee_kda.ArceeKDAForCausalLM",
    "AutoModelForCausalLM": "modeling_arcee_kda.ArceeKDAForCausalLM"
  },
  "bos_token_id": 128000,
  "dtype": "bfloat16",
  "eos_token_id": 128001,
  "head_dim": 128,
  "hidden_act": "relu2",
  "hidden_size": 2560,
  "initializer_range": 0.02,
  "intermediate_size": 18432,
  "linear_attn_config": {
    "full_attn_layers": [],
    "head_dim": 128,
    "kda_layers": [
      1,
      2,
      3,
      4,
      5,
      6,
      7,
      8,
      9,
      10,
      11,
      12,
      13,
      14,
      15,
      16,
      17,
      18,
      19,
      20,
      21,
      22,
      23,
      24,
      25,
      26,
      27,
      28,
      29,
      30,
      31,
      32,
      33,
      34,
      35,
      36
    ],
    "num_heads": 20,
    "short_conv_kernel_size": 4
  },
  "max_position_embeddings": 32768,
  "mlp_bias": false,
  "model_type": "arcee_kda",
  "num_attention_heads": 20,
  "num_hidden_layers": 36,
  "num_key_value_heads": 4,
  "pad_token_id": 128001,
  "pretraining_tp": 1,
  "rms_norm_eps": 1e-05,
  "tie_word_embeddings": false,
  "transformers_version": "4.57.1",
  "use_cache": false,
  "vocab_size": 128032
}