mergekit saves tied and ignored weights unlike what transformers does when saving #390

nyxkrage · 2024-08-07T06:54:49Z

An example of this in the wild is Gemma2, where saving a Gemma2 model with save_pretrained ignores the lm_head tensor, due to it being a tied weight, whereas a Gemma2 model saved from mergekit will have the lm_head included in the safetensors files, resulting in the model being 10.2B parameters vs 9.24B parameters. This can be seen with grimjim/Gemma2-Nephilim-v3-9B vs google/gemma-2-9b

Relevant code from transformers:
https://github.com/huggingface/transformers/blob/3d8bd11942cec26851c80c01aa5e8403542ca50b/src/transformers/modeling_utils.py#L2634-L2637
https://github.com/huggingface/transformers/blob/3d8bd11942cec26851c80c01aa5e8403542ca50b/src/transformers/modeling_utils.py#L2666-L2700

The text was updated successfully, but these errors were encountered:

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

mergekit saves tied and ignored weights unlike what transformers does when saving #390

mergekit saves tied and ignored weights unlike what transformers does when saving #390

nyxkrage commented Aug 7, 2024 •

edited

Loading

mergekit saves tied and ignored weights unlike what transformers does when saving #390

mergekit saves tied and ignored weights unlike what transformers does when saving #390

Comments

nyxkrage commented Aug 7, 2024 • edited Loading

nyxkrage commented Aug 7, 2024 •

edited

Loading