Skip to content

MiniCPM V4.6是否可以直接替换text_config组成新的模型? #1095

@randydl

Description

@randydl

感谢优秀的开源工作,受益很多。我想请教一个关于模型结构扩展的问题。

目前我在考虑是否可以基于 MiniCPM V4.6 的整体框架,直接替换其中的 text_config 来构建新的模型。例如,将当前语言模型部分对应的 text_config 替换为 qwen3vl_config,然后重新初始化对应模块,组成一个新的 VLM 模型,并在此基础上继续进行微调训练。

我想确认一下,这种“仅替换 text_config”的做法在架构设计上是否可行?还是说除了 text_config 之外,还需要同步修改其他组件,例如:

  • tokenizer 配置
  • projector / connector
  • position embedding
  • rotary embedding(RoPE)
  • hidden size 对齐
  • vision-language 对齐方式
  • special tokens
  • generation config 等

想请教一下比较推荐的实现方式,感谢。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions