지난 1편에 이어 학사 졸업 논문에 대한 리뷰 글을 작성해 보려고 한다.
https://jaehee831.tistory.com/21
졸업 논문 리뷰: Semi-Supervised Federated Reinforcement Learning (1)
오랜만에 쓰는 글~곧 학부 졸업을 앞두고 있어서, 오늘은 나의 학사 졸업 논문 회고 글로 돌아왔다. 논문 제목은 SemiFRL : Semi-Supervised Federated Reinforcement Learning for Clients Selection and Adaptive Pseudo Labeli
jaehee831.tistory.com
1편을 보고 오는 것을 추천한다.
연합학습의 가장 어려운 질문: 누구를 믿고 학습할 것인가?
연합학습(Federated Learning)은 데이터를 중앙으로 모으지 않고 각 사용자 기기에서 모델을 학습하는 방식이다. 개인정보 보호 측면에서 매우 강력한 접근이다.
하지만 현실은 이상적이지 않다.
- 사용자마다 데이터 분포가 다르고(non-IID)
- 대부분의 클라이언트는 라벨 데이터조차 없다
이 환경에서는 의사 라벨(pseudo-label)의 품질이 흔들리고, 결국 글로벌 모델 성능이 떨어진다.
여기서 하나의 근본적인 질문이 등장한다.
연합학습에서 어떤 클라이언트를 선택하고, 어떤 데이터를 믿어야 할까?
논문에서 제시한 프레임워크 SemiFRL은 바로 이 질문에 대한 답을 제시한다.
기존 방법이 놓치고 있던 것
준지도 연합학습(SSFL)은 서버만 소량의 라벨 데이터를 가지고, 클라이언트는 비라벨 데이터를 사용하는 비교적 현실적인 시나리오이다.
대표적인 방법인 SemiFL은 다음 구조를 따른다.
- 서버가 라벨 데이터로 모델을 먼저 학습
- 클라이언트가 pseudo-label 생성
- 로컬 학습 수행
이는 로컬-클라이언트 통신 효율과 라벨 부족 문제를 동시에 해결하려는 접근이다.
하지만 치명적인 약점이 있다.
✔ 고정된 threshold
→ 모든 클라이언트에 동일 기준 적용
✔ 경험적(client heuristic) 선택
→ 데이터 품질을 제대로 반영하지 못함
non-IID 환경에서는 잘못된 pseudo-label이 누적되고 오류가 글로벌 모델로 전파된다.
흥미로운 점은, 기존 RL 기반 FL 연구조차 완전히 라벨 없는 클라이언트 환경이나 adaptive threshold 문제를 다루지 않았다는 것이다.
즉, 중요한 의사결정이 여전히 “규칙 기반”에 머물러 있었다.
아이디어는 단순하지만 강력하다
“의사결정을 모델에게 맡겨라”
SemiFRL은 SSFL에서 가장 중요한 두 결정을 강화학습 문제로 재정의한다.
논문의 핵심 설계는 두 개의 RL 에이전트다.
Client Selection Agent
어떤 클라이언트를 학습에 참여시킬지 결정한다.
단순히 데이터 양이 아니라 다음 요소를 함께 고려한다.
- 모델 신뢰도
- 참여 이력
- 데이터 이질성(kullback leibler divergence, KLD)
- 최근 학습 행동
이 지표들은 에이전트가 학습을 올바른 방향으로 하고 있는지 알려주는 이정표 역할을 한다. client selection agent의 목표는 하나이다.
가장 안정적이고 정보가 많은 업데이트를 가져오는 클라이언트 선택
Threshold Selection Agent
pseudo-label을 얼마나 믿을지 결정한다.
- noisy / skewed 클라이언트 → 낮은 threshold
- 신뢰도 높은 클라이언트 → 높은 threshold
즉, 클라이언트별로 다른 기준을 적용한다.
기존 방법처럼 정적인 규칙에서의 학습이 아닌, 상황에 적응하는 정책(policy)이 되는 것이다.
강화학습은 실제로 무엇을 배웠을까?
연구하며 가장 흥미로웠던 부분은 에이전트 행동 분석이다.
자주 선택된 클라이언트는 공통적으로 아래 특징을 지녔다.
- 높은 클래스 엔트로피
- 높은 MSP
이는 에이전트의 행동이 더 안정적이고 정보량이 많은 업데이트를 제공하는 방식으로 감을 증명한다. 즉 RL은 좋은 데이터 제공자를 스스로 찾아낸다.
Threshold의 진화 과정도 인상적이다
- 초기 학습 → 낮은 threshold (의사 라벨 신뢰도 낮음)
- 학습 안정화 → threshold 상승
또한 non-IID가 강한 클라이언트에는 낮은 threshold를 적용해 소수 클래스 데이터를 더 활용한다.
성능 개선 및 기여
실험은 CIFAR-10을 활용하여 매 라운드마다 100개의 클라이언트 중 10개를 택하는 방식으로 3번 반복해 진행했다.
실험 결과 기존 SSFL baseline SemiFL 대비 SemiFRL의 Client agent는 0.62% p, Threshold agent는 1.48%p의 성능 향상을 기록했다.
이번 연구는 내가 아는 선에서는 준지도 연합학습(SSFL)에 강화학습(RL)을 적용한 최초의 접근이다. 결국 FL에서는 더 똑똑한 모델만큼 더 똑똑한 의사 결정이 중요하다는 것을 깨달았다.
연구를 아래와 같이 확장해 볼 수도 있을 것 같다.
- fully unlabeled client 환경 대응
- 자동화된 학습 전략
- privacy-preserving 협업 시스템으로 확장
물론 아쉬운 점도 있다.
현재 구조에서는 두 에이전트가 분리되어 있는데 공동 학습 시 추가 성능 향상을 기대해 볼 수 있을 듯.
실험 세팅에서 하이퍼파라미터가 많았고, 강화학습의 S-A-R 설정도 휴리스틱이 관여할 수밖에 없는 부분이라 미미한 성능 향상에 그친 것이 아쉽기도 하다.
근데 더 붙잡고 싶진 않다. ㅋㅋ
25년 상반기만 해도 졸업 논문이 먼 일 같았는데 막상 쓰고 나니 빨리 지나갔다.
학부 생활이 뭐 했다고 벌써 끝나...
대학원 가서는 진짜 연구 다운 연구를 해보고 싶은 마음이 든다.
나자신 화이팅 해~
'Project' 카테고리의 다른 글
| 졸업 논문 리뷰: Semi-Supervised Federated Reinforcement Learning (1) (1) | 2026.02.18 |
|---|