dew's CSE Studying
Multimodal Federated Learning via Contrastive Representation Ensemble(ICLR 2023, Qiying Yu, Yang Liu, Yimu Wang, ...) 본문
Multimodal Federated Learning via Contrastive Representation Ensemble(ICLR 2023, Qiying Yu, Yang Liu, Yimu Wang, ...)
dew₍ᐢ.ˬ.⑅ᐢ₎ 2025. 2. 11. 10:30이 논문은 CreamFL에 관한 논문이다! 진행중인 연구에 관해 진행한 topic관련 세미나에서 질문으로 들어왔던 부분이라 읽어본다 :)
Abstract
기존 multimodal FL의 문제점
single modality 수준에서 모델을 합치는 방법에 의존한다
- 서버와 클라이언트가 각 모달리티에서 동일한 모델 아키텍처를 갖는 것 제한
- model complexity, data capacity 측면에서 글로벌 모델을 제한
- 다양한 task를 처리하는 것 어려움
this paper
"Cream FL" : Contrastive Representation Ensemble and Aggregation for Multimodal FL
- 이질적인 모델 아키텍처&데이터 모달리티를 가진 클라이언트들이 public dataset에서만 지식을 공유하면서 큰 서버모델을 훈련시키는 것을 가능하게 함
- global-local cross-modal ensemble strategy->client representation을 모아서 더 나은 multimodal representation fusion을 가능하게 함
- inter-modal and intra-modal contrast
-목적: modality gap, task gap에서 발생하는 local model drift를 완화하고자 함
-효과: local training을 regularize->uni-modal client에서 빠진 모달리티의 정보를 보완&global consensus에 도달할 수 있도록 local clients를 regularize - dataset: image-text retrieval & VQA tasks
Introduction
FL을 multimodal task에 적용한 초기 시도
- Xiong et al.,Zhao et al.,Liu et al.: FedAvg를 사용, 각 모달리티 별로 동일한 모델 사용
- 한계: edge device는 계산량 제한, 메모리자원 제한이 있어서 global model의 capacity를 줄여야만 한다
- modality-dependent 모델을 naive하게 합치는 건 model drift 문제를 다루는데 부적합
최근 더 큰 서버모델 학습을 가능하게 하는 시도
- FedET: ensemble knowledge distillation. 여기서는 logit을 사용해서 지식을 전달,앙상블했는데 이건 멀티모달 환경으로 확장하기 어려움(대부분의 multimodal task는 fused cross-modality representation level에서 작동하기 때문에)
this paper: "KD based multimodal FL framework: CreamFL"
- 다른 clients 사이의 uni-modal data, multi-modal data를 동시에 leverage
- representation-level ensemble knowledge transfer을 통해서 더 큰 글로벌 모델을 학습하기 위함
- 서버와 클라이언트 사이에서 public data의 low-dimensional representations를 전송(얘는 logit에 비해 더 문맥을 담았고 더 복잡한 태스크에 적용 가능하다)
- 그럼 다 다른 client들로부터 전달받은 representaion을 어떻게 합치느냐!=>"global-local cross-modal aggregation" strategy
1)로컬 표현과 글로벌 표현을 비교-> drifting outliers를 필터링
2)다른 모달리티의 표현과 대조하여 보다 적절한 대응 파트너와 매치될 수 있을 만한 애들을 선택
modality gap & task gap
modality gap: uni-modal training의 경우 training과정에서 한 번도 다른 종류의 모달리티를 본 적이 없으니까 다른 모달리티를 인식하는데 한계를 겪는다
task gap: 각 clients들이 각기 다른 task를 위해 train됨
=>둘다 unprecedented model drift problem으로 이어진다
solution: inter-modal contrastive objective & intra-modal contrastive objective
inter-modal contrastive objective: modality gap을 극복하기 위해 local training에서 public data를 이용한 cross-modallity contrast를 사용(얘는 uni-modality의 빠진 modality info를 보완해준다)
intra-modal contrastive objective: task gap 극복 위해 각 모달리티에서 global model에 매칭되는 local representation을 대조해서 global consensus에 더 잘 regularize되도록 한다
summary
1)CreamFL은 서버와 클라이언트 사이의 이질적인 modality&model architecture을 다루기 위한 첫 KD-based multimodal FL framework이다. 실험을 통해 CreamFL이 멀티모달 환경에서 다른 FL systems보다 model performance&communication cost 모두 뛰어나다는 것을 보인다.
2)CreamFL는 클라이언트-서버 지식전이에서 logit이 아닌 representations를 합친다. model drift를 다루기 위해 새롭게 제시된 global-local cross-modal aggregation strategy를 사용하여 더 나은 representation learning and inter/intra-modal contrastive objectives이 가능하게 한다.
3)서버에서의 larger model training을 가능하게 한다. resource-constrained clients로부터 modality-diverse knowledge를 뽑아낼 수 있는데 이건 복잡한 cross-modal tasks에서 필요하다.
Related Work
KD를 FL에 적용한 연구
: 이질적인 client들이 aggregated consensus에서 KD를 했지만 server model을 train하진 않음
- FedGKT(He et al., 2020a): larger server model로 나아갔지만 server가 client들 사이에서 선택을 하진 않고 모든 클라이언트의 정보를 동일하게 반영->글로벌 모델의 성능이 저하되고 일관된 학습이 어렵다는 한계
- Cho et al. (2022) and Cheng et al. (2021): ensemble knowledge transfer를 활용해서 FL에서 더 큰 서버모델을 학습할 수 있도록 함.->but logit을 위해 만들어진 selective aggrregation 전략&classification task에만 한정됨
=>우리는 representation을 전송&복잡한 멀티모달 task에도 가능
FL을 멀티모달에 적용한 연구
- Xiong et al.(2022): FedAvg를 멀티모달 task에
- Liu et al.(2020): 다른 분포에서 성능을 올리기 위해 FL을 적용해서 여러개의 데이터셋을 leverage
- Zhao et al.(2022): aggregation에서 multimodal clients에게 높은 weight을 할당할 것을 제안->weight에 대해 manual tuning 필요&uni-modal과 multi-modal을 모두 갖고 있는 FL 시스템에 대해서만 작용
=>우리는 aggregation에 tuning-free global-local cross-modal contrastive strategy 사용
inter-modal contrastive learning와 다른 점
Federated Multimodal Learning
3.1 problem definition
3.2 local training via contrastive regularization(LCR)
3.2.1 inter-modal contrastive
3.2.2 intra-modal contrastive