dew's CSE Studying

Multimodal Federated Learning via Contrastive Representation Ensemble(ICLR 2023, Qiying Yu, Yang Liu, Yimu Wang, ...) 본문

Machine Learning/논문 리뷰

Multimodal Federated Learning via Contrastive Representation Ensemble(ICLR 2023, Qiying Yu, Yang Liu, Yimu Wang, ...)

dew₍ᐢ.ˬ.⑅ᐢ₎ 2025. 2. 11. 10:30
이 논문은 CreamFL에 관한 논문이다! 진행중인 연구에 관해 진행한 topic관련 세미나에서 질문으로 들어왔던 부분이라 읽어본다 :)

Abstract

기존 multimodal FL의 문제점

single modality 수준에서 모델을 합치는 방법에 의존한다

  • 서버와 클라이언트가 각 모달리티에서 동일한 모델 아키텍처를 갖는 것 제한
  • model complexity, data capacity 측면에서 글로벌 모델을 제한
  • 다양한 task를 처리하는 것 어려움

this paper

"Cream FL" : Contrastive Representation Ensemble and Aggregation for Multimodal FL
  • 이질적인 모델 아키텍처&데이터 모달리티를 가진 클라이언트들이 public dataset에서만 지식을 공유하면서 큰 서버모델을 훈련시키는 것을 가능하게 함
  • global-local cross-modal ensemble strategy->client representation을 모아서 더 나은 multimodal representation fusion을 가능하게 함
  • inter-modal and intra-modal contrast
    -목적: modality gap, task gap에서 발생하는 local model drift를 완화하고자 함
    -효과: local training을 regularize->uni-modal client에서 빠진 모달리티의 정보를 보완&global consensus에 도달할 수 있도록 local clients를 regularize
  • dataset: image-text retrieval & VQA tasks

 

Introduction

FL을 multimodal task에 적용한 초기 시도

  • Xiong et al.,Zhao et al.,Liu et al.: FedAvg를 사용, 각 모달리티 별로 동일한 모델 사용
  • 한계: edge device는 계산량 제한, 메모리자원 제한이 있어서 global model의 capacity를 줄여야만 한다
  • modality-dependent 모델을 naive하게 합치는 건 model drift 문제를 다루는데 부적합

 

최근 더 큰 서버모델 학습을 가능하게 하는 시도

  • FedET: ensemble knowledge distillation. 여기서는 logit을 사용해서 지식을 전달,앙상블했는데 이건 멀티모달 환경으로 확장하기 어려움(대부분의 multimodal task는 fused cross-modality representation level에서 작동하기 때문에)

 

this paper: "KD based multimodal FL framework: CreamFL"

  • 다른 clients 사이의 uni-modal data, multi-modal data를 동시에 leverage
  • representation-level ensemble knowledge transfer을 통해서 더 큰 글로벌 모델을 학습하기 위함
  • 서버와 클라이언트 사이에서 public data의 low-dimensional representations를 전송(얘는 logit에 비해 더 문맥을 담았고 더 복잡한 태스크에 적용 가능하다)
  • 그럼 다 다른 client들로부터 전달받은 representaion을 어떻게 합치느냐!=>"global-local cross-modal aggregation" strategy
    1)로컬 표현과 글로벌 표현을 비교-> drifting outliers를 필터링
    2)다른 모달리티의 표현과 대조하여 보다 적절한 대응 파트너와 매치수 있을 만한 애들을 선택

 

modality gap & task gap

modality gap: uni-modal training의 경우 training과정에서 한 번도 다른 종류의 모달리티를 본 적이 없으니까 다른 모달리티를 인식하는데 한계를 겪는다

task gap: 각 clients들이 각기 다른 task를 위해 train됨

=>둘다 unprecedented model drift problem으로 이어진다

 

solution: inter-modal contrastive objective & intra-modal contrastive objective

inter-modal contrastive objective: modality gap을 극복하기 위해 local training에서 public data를 이용한 cross-modallity contrast를 사용(얘는 uni-modality의 빠진 modality info를 보완해준다)

intra-modal contrastive objective: task gap 극복 위해 각 모달리티에서 global model에 매칭되는 local representation을 대조해서 global consensus에 더 잘 regularize되도록 한다

 

summary

1)CreamFL은 서버와 클라이언트 사이의 이질적인 modality&model architecture을 다루기 위한 첫 KD-based multimodal FL framework이다. 실험을 통해 CreamFL이 멀티모달 환경에서 다른 FL systems보다 model performance&communication cost 모두 뛰어나다는 것을 보인다.

2)CreamFL는 클라이언트-서버 지식전이에서 logit이 아닌 representations를 합친다. model drift를 다루기 위해 새롭게 제시된 global-local cross-modal aggregation strategy를 사용하여 더 나은 representation learning and inter/intra-modal contrastive objectives이 가능하게 한다.

3)서버에서의 larger model training을 가능하게 한다. resource-constrained clients로부터 modality-diverse knowledge를 뽑아낼 수 있는데 이건 복잡한 cross-modal tasks에서 필요하다.

 

Related Work

KD를 FL에 적용한 연구

: 이질적인 client들이 aggregated consensus에서 KD를 했지만 server model을 train하진 않음

  • FedGKT(He et al., 2020a): larger server model로 나아갔지만 server가 client들 사이에서 선택을 하진 않고 모든 클라이언트의 정보를 동일하게 반영->글로벌 모델의 성능이 저하되고 일관된 학습이 어렵다는 한계
  • Cho et al. (2022) and Cheng et al. (2021): ensemble knowledge transfer를 활용해서 FL에서 더 큰 서버모델을 학습할 수 있도록 함.->but logit을 위해 만들어진 selective aggrregation 전략&classification task에만 한정됨

=>우리는 representation을 전송&복잡한 멀티모달 task에도 가능

 

FL을 멀티모달에 적용한 연구

  • Xiong et al.(2022): FedAvg를 멀티모달 task에
  • Liu et al.(2020): 다른 분포에서 성능을 올리기 위해 FL을 적용해서 여러개의 데이터셋을 leverage
  • Zhao et al.(2022): aggregation에서 multimodal clients에게 높은 weight을 할당할 것을 제안->weight에 대해 manual tuning 필요&uni-modal과 multi-modal을 모두 갖고 있는 FL 시스템에 대해서만 작용

=>우리는 aggregation에 tuning-free global-local cross-modal contrastive strategy 사용

 

inter-modal contrastive learning와 다른 점

 

 

Federated Multimodal Learning

3.1 problem definition

3.2 local training via contrastive regularization(LCR)

3.2.1 inter-modal contrastive

3.2.2 intra-modal contrastive