Skip to content

Aim to paramter-efficient fine-tuning (peft) vision -language model

Notifications You must be signed in to change notification settings

ustcjinggg/Awesome-PEFT-VLM

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
 
 

Repository files navigation

Awesome-PEFT-VLM

Aim for parameter-efficient fine-tuning (peft) vision-language model.

A curated list of causality in computer vision. Inspired by awesome-deep-vision, Awesome-Causality-in-CV.

Please feel free to pull requests or open an issue to add papers.

Table of Contents

  • Type of PEFT for VLM
  • 多模态QA任务
  • 多模态Visual任务
  • 纯视觉模型
  • 纯语言模型

VLM-Visual-Task

Title 发表情况 方法描述 基线模型 实验对象
Bridging Vision and Language Encoders: Parameter-Efficient Tuning for Referring Image Segmentation ICCV2023 每个stage增加了Bridge模块做视觉文本融合,设计可训练解码器(分层对齐+全局对齐+投影) 多模态模型CLIP RefCOCO, RefCOCO+, G-Ref指代分割
Multi-modal Queried Object Detection in the Wild NIPS2023 固定模型,增加视觉query分支,并将query融入文本编码器做cross-att 多模态定位模型GLIP(Swin+Bert+Dyhead) COCO, ODinW, LVIS数据集 目标检测
Self-regulating Prompts: Foundational Model Adaptation without Forgetting ICCV2023 结合可学习的prompt和定制的loss学习task-agnostic和task-speicifc信息 CLIP-ViT-B16 FGVC分类数据集

VLM-QA

Title 发表情况 方法描述 基线模型 实验对象
Vl-adapter: Parameter-efficient transfer learning for vision-and-language tasks. ICCV2023 改造文本部分的block,设计下采样+上采样形式的方案设计adapter 多模态Bart-base/T5-base + CLIP VQA, GQA, NLVR, COCO Cap 图文任务
VL-PET: Vision-and-Language Parameter-Efficient Tuning via Granularity Control CVPR2022 改造文本部分的block,在adapter基础上增加粒度控制的G作为权重对特征激活 多模态Bart-base/T5-base + CLIP; 对比VL-Adapter VQA, GQA, NLVR, COCO Cap 图文任务
MixPHM: Redundancy-Aware Parameter-Efficient Tuning for Low-Resource Visual Question Answering CVPR2023 混合专家模型结合lora利用更多参数微调 T5,X-VLM,BLIP,OFA-B VQAv2, GQA, OK-VAQ图文任务
LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer Learning NIPS2022 设计侧边网络,由本身参数初始化,微调过程中固定主干网络并且无需其中梯度,节省50%以上显存 T5, CLIP-T5 GLUE NLP任务; VQA, GQA, NLVR, COCO Cap 图文任务
Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer ICCV2023 在视觉和文本编码器对齐处,使用transformer层进行对齐 CLIP-ViT-B32模型 SUTD-TrafficQA (Video)

Vision Only

Title 发表情况 方法描述 基线模型 实验对象
Visual Prompt Tuning ECCV2022(455引) 固定模型,在每一层都增加可学习的prompt作为额外token进行训练 ViT-B, ViT-L VTAB分类数据集
Revisiting the Parameter Efficiency of Adapters from the Perspective of Precision Redundancy ICCV2023 对lora和adaformer的参数做量化,进一步减少参数量 纯视觉VIT-B模型 VTAB分类数据集
Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning ICCV2023 利用梯度分析不同层的参数敏感性,依次使用LoRA 纯视觉VIT-B模型 VTAB分类数据集
Visual Query Tuning: Towards Effective Usage of Intermediate Representations for Parameter and Memory Efficient Transfer Learning CVPR2023 相比于VPT,prompt只和query联系 ViT-B/16 VTAB-1k 分类数据集
A Unified Continual Learning Framework with General Parameter-Efficient Tuning ICCV2023 叠加使用lora,prefix,adapeter设计了PET模块 纯视觉VIT-B Cifar100, ImageNetR分类数据集
DiffFit: Unlocking Transferability of Large Diffusion Models via Simple Parameter-Efficient Fine-Tuning ICCV2023 打开bias, bn, class token, 加入可学习γ用作block权重 Diffusion Transformer(DiT) Food101等细粒度数据集做生成
1% VS 100%: Parameter-Efficient Low Rank Adapter for Dense Predictions CVPR2023 将lora_A和lora-B进一步低秩分解并组合 Swin,对比Adapter ADE20k分割,COCO检测

Language Only

Title 发表情况 方法描述 基线模型 实验对象
LoRA: Low-rank adaptation of large language models ICLR2022(1k+引) 用低秩逼近的方法拟合模型微调过程中W的变化 DeBERTa, GPT-2, GPT-3 WikiSQL,MultiNLI等
BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models ACL2022(360引) 仅微调bias项 Bert 模型 GLUE benchmark
Parameter-efficient Multi-task Fine-tuning for Transformers via Shared Hypernetworks ACL2021(150引) - T5-base GLUE benchmark

About

Aim to paramter-efficient fine-tuning (peft) vision -language model

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published