使用KV cache（int8或int4）量化internvl-v1.5后，显存反而增加了 #1626

qingchunlizhi · 2024-05-21T07:49:41Z

Checklist

1. I have searched related issues but cannot get the expected help.
2. The bug has not been fixed in the latest version.

Describe the bug

使用KV cache（int8或int4）量化internvl-v1.5后，GPU显存占用增加到了73G，直接用Transformers加载只有50G左右。这个是怎么回事？该怎么修复？谢谢！量化代码如下：

engine_config = TurbomindEngineConfig(quant_policy=4)
pipe = pipeline('./models/InternVL-Chat-V1-5',
                backend_config=TurbomindEngineConfig(quant_policy=4, session_len=4096))

Reproduction

engine_config = TurbomindEngineConfig(quant_policy=4)
pipe = pipeline('./models/InternVL-Chat-V1-5',
                backend_config=TurbomindEngineConfig(quant_policy=4, session_len=4096))

Environment

...

Error traceback

No response

The text was updated successfully, but these errors were encountered:

lvhan028 · 2024-05-21T08:17:38Z

这是因为 lmdeploy 采用了"激进"的 kv cache mem分配策略

https://lmdeploy.readthedocs.io/en/latest/inference/pipeline.html#usage

可以参考上面文档的说明

qingchunlizhi · 2024-05-21T08:43:17Z

那用这种方式量化还是不能解决在内存小的卡上运行的问题吧。我该如何把模型显存占用降低到比如30G一下呢

lvhan028 · 2024-05-21T08:57:57Z

是可以的。调小 max-cache-entry-count的比例就好了

qingchunlizhi · 2024-05-21T09:33:30Z

max-cache-entry-count 我调成0.2，int4量化后模型依旧占用超过51G。但是BF16模型加载完是50G，如果直接用官方的int8模型，加载完显存占用只有27G。是不是量化完后先要保存，然后再加载推理？

irexyc · 2024-05-21T11:44:21Z

一个是kv cache量化，一个是权重量化，不一样。你说的官方的int8是用的bnb，跑一下你会发现比fp还慢。你可以关注一下LMDeploy 的量化功能 #1553 ，这个PR合入后，显存会降下来，速度也会更快。

rTrQqgH74lc2PT5k · 2024-05-25T04:00:10Z

@irexyc 请问如何打开这些功能呢，需要做什么设置吗？我的理解

省显存1个是vision均分后可以省显存，这个需要如何进行设置呢
权重量化 [Feature] Support vl models quantization #1553 功能是要单独的进行量化后保存下来才能使用，还是通过参数进行设置即可使用，可能是不太清楚这些量化的原理(bnb，W4A16)，感觉不太知道怎么用
降低max-cache-entry-count进一步节省显存占用

一个是kv cache量化，一个是权重量化，不一样。你说的官方的int8是用的bnb，跑一下你会发现比fp还慢。你可以关注一下LMDeploy 的量化功能 #1553 ，这个PR合入后，显存会降下来，速度也会更快。

rTrQqgH74lc2PT5k · 2024-05-25T04:49:01Z

可以更新一些文档来进行说明吗？

似乎有一些文档说明：

lmdeploy/docs/en/inference/vl_pipeline.md

Line 134 in b15ec5f

 The default parameters of the visual model can be modified by setting `VisonConfig`. 

PS：这里的VisonConfig是不是typo了，VisionConfig

qingchunlizhi · 2024-05-30T09:37:48Z

一个是kv cache量化，一个是权重量化，不一样。你说的官方的int8是用的bnb，跑一下你会发现比fp还慢。你可以关注一下LMDeploy 的量化功能 #1553 ，这个PR合入后，显存会降下来，速度也会更快。

您好，0.4.2版本里面降显存的部分合并进来了吗？用现在的版本测试模型占用的显存还是太大了：

irexyc · 2024-05-30T09:43:23Z

@qingchunlizhi

backend_config 看一下 cache_max_entry_count 这个参数，设成0.5试试，这个表示kvcache 显存申请的百分比，跟模型权重无关，大小影响batch_size 和 session_len。

irexyc · 2024-05-30T09:53:00Z

@rTrQqgH74lc2PT5k

因为LLM 多卡的时候，每个卡上需要的显存相等，如果vision不均分的话，会造成可用显存变少。目前这个是自动开启的。

权重量化需要保存下来使用，文档可以看 https://github.com/InternLM/lmdeploy/blob/main/docs/zh_cn/quantization/w4a16.md，对VLM模型来说也是一致的。不过保存模型的时候，文件夹最好和官方一致，不然可能无法自动匹配到正确的对话模版。

kvcache 所占显存与模型权重无关，是通过 cache_max_entry_count 这个参数来控制的。影响最大的session_len, 以及batch_size。

VisonConfig 是 typos了。

lvhan028 changed the title ~~[Bug] 使用KV cache（int8或int4）量化internvl-v1.5后，显存反而增加了~~ 使用KV cache（int8或int4）量化internvl-v1.5后，显存反而增加了 May 21, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

使用KV cache（int8或int4）量化internvl-v1.5后，显存反而增加了 #1626

使用KV cache（int8或int4）量化internvl-v1.5后，显存反而增加了 #1626

qingchunlizhi commented May 21, 2024 •

edited

Loading

lvhan028 commented May 21, 2024

qingchunlizhi commented May 21, 2024

lvhan028 commented May 21, 2024

qingchunlizhi commented May 21, 2024 •

edited

Loading

irexyc commented May 21, 2024

rTrQqgH74lc2PT5k commented May 25, 2024 •

edited

Loading

rTrQqgH74lc2PT5k commented May 25, 2024 •

edited

Loading

qingchunlizhi commented May 30, 2024

irexyc commented May 30, 2024

irexyc commented May 30, 2024

使用KV cache（int8或int4）量化internvl-v1.5后，显存反而增加了 #1626

使用KV cache（int8或int4）量化internvl-v1.5后，显存反而增加了 #1626

Comments

qingchunlizhi commented May 21, 2024 • edited Loading

Checklist

Describe the bug

Reproduction

Environment

Error traceback

lvhan028 commented May 21, 2024

qingchunlizhi commented May 21, 2024

lvhan028 commented May 21, 2024

qingchunlizhi commented May 21, 2024 • edited Loading

irexyc commented May 21, 2024

rTrQqgH74lc2PT5k commented May 25, 2024 • edited Loading

rTrQqgH74lc2PT5k commented May 25, 2024 • edited Loading

qingchunlizhi commented May 30, 2024

irexyc commented May 30, 2024

irexyc commented May 30, 2024

qingchunlizhi commented May 21, 2024 •

edited

Loading

qingchunlizhi commented May 21, 2024 •

edited

Loading

rTrQqgH74lc2PT5k commented May 25, 2024 •

edited

Loading

rTrQqgH74lc2PT5k commented May 25, 2024 •

edited

Loading