[네트워크] 샤시형 백본 슈퍼바이저란?

샤시형 백본 스위치의 슈퍼바이저(Supervisor)는 장비 전체를 통제하는 두뇌입니다. 이 글에서는 슈퍼바이저의 역할, 이중화가 필요한 이유, 그리고 SSO·NSF를 비롯한 RPR, NSR, ISSU 같은 핵심 이중화 기능을 초보자도 이해할 수 있게 비유와 함께 정리했습니다.

1. 슈퍼바이저란 무엇인가?

샤시형 백본 스위치를 이해하려면 먼저 구조를 봐야 합니다. 샤시(Chassis)는 텅 빈 골격(캐비닛)이고, 여기에 여러 부품을 꽂아서 하나의 장비를 완성합니다.

  • 라인카드(Line Card) : 포트가 달린 카드로, 실제 케이블을 꽂는 곳
  • 파워 서플라이 / 팬 : 전원 공급과 냉각 담당
  • 슈퍼바이저(Supervisor) : 장비 전체를 통제하는 두뇌

슈퍼바이저는 운영체제(OS)를 구동하고, 트래픽을 어디로 보낼지 결정하며, 모든 부품을 지휘하는 컨트롤 타워입니다.

💡 쉽게 비유하면
큰 레스토랑 주방을 떠올려보세요. 라인카드들은 각자 요리하는 요리사들이고, 슈퍼바이저는 총괄 셰프(헤드 셰프)입니다. 셰프가 주문을 배분하고 전체를 지휘하죠. 셰프가 쓰러지면 주방 전체가 마비됩니다. 그래서 셰프를 한 명 더 두는 것이 바로 '이중화'입니다.

2. 컨트롤 플레인 vs 데이터 플레인

뒤에 나올 SSO·NSF를 이해하려면 이 구분을 반드시 알아야 합니다. 스위치 내부의 일은 크게 세 가지 영역으로 나뉩니다.

  • 컨트롤 플레인(Control Plane) : "어디로 보낼지 결정하는" 의사결정 영역 → 슈퍼바이저 담당
  • 데이터 플레인(Data Plane / Forwarding Plane) : "실제로 짐을 나르는" 전달 영역 → 주로 라인카드 담당
  • 매니지먼트 플레인(Management Plane) : 관리·설정·모니터링 영역
💡 쉽게 비유하면
셰프(컨트롤 플레인)가 "이 주문은 저 테이블로!"라고 정하면, 요리사들(데이터 플레인)이 실제로 음식을 만들어 나릅니다. 핵심은 — 셰프가 잠깐 교체돼도, 이미 받아둔 주문은 요리사들이 계속 처리할 수 있다는 점입니다. 이 원리가 바로 NSF의 기반입니다.

3. 왜 슈퍼바이저를 두 개 꽂을까?

슈퍼바이저가 하나뿐이면 그것이 단일 장애점(SPOF, Single Point of Failure)이 됩니다. 두뇌가 죽으면 장비 전체가 멈추기 때문입니다. 그래서 백본 장비는 보통 슈퍼바이저 슬롯을 2개 두고 다음처럼 운영합니다.

  • Active(주) : 지금 실제로 일하는 슈퍼바이저
  • Standby(예비) : 옆에서 대기하다가 Active가 죽으면 즉시 인수하는 슈퍼바이저
💡 쉽게 비유하면
비행기의 기장(Active)과 부기장(Standby)입니다. 부기장이 옆에서 같은 계기판을 보며 대기하다가, 기장이 쓰러지면 곧바로 조종간을 잡습니다. 이때 "얼마나 빨리, 얼마나 매끄럽게 이어받느냐"가 다음 장의 핵심 주제입니다.

4. 이중화 모드 한눈에 비교 (RPR·SSO·NSF)

Active가 죽었을 때 Standby가 인수하는 방식은 기술 발전에 따라 단계적으로 진화했습니다. 먼저 전체를 표로 비교한 뒤 하나씩 살펴보겠습니다.

모드 상태 동기화 전환(복구) 속도 한 줄 비유
RPR 거의 안 됨 분 단위 (느림) 집에 있던 대타를 불러 출근시키기
RPR+ 일부 (부팅 상태 유지) 수십 초 대기실에 와 있던 직원
SSO 거의 완전 동기화 1초 내외 (빠름) 옆에서 같은 화면 보던 동료
NSF (SSO와 함께 동작) 전환 중에도 전달 끊김 없음 셰프 바뀌어도 멈추지 않는 주방

RPR (Route Processor Redundancy)

가장 오래된 방식입니다. Standby가 어중간하게만 부팅돼 있어서, 전환되면 라인카드까지 재시작되고 복구에 몇 분이 걸립니다. 요즘은 거의 쓰지 않습니다. 집에서 쉬던 대타 직원을 전화로 불러, 출근하고 업무를 파악할 때까지 다 기다려야 하는 상태에 가깝습니다.

RPR+ (RPR Plus)

Standby를 완전히 부팅해두고 라인카드도 재시작하지 않습니다. RPR보다 훨씬 빠르지만, 현재 진행 중인 상태 정보는 공유되지 않습니다. 대기실에 미리 와서 옷까지 갈아입고 앉아 있지만, 지금 무슨 일이 진행 중인지는 모르는 직원입니다.

SSO (Stateful Switchover) — 현대 표준

"Stateful = 상태를 알고 있다"는 뜻입니다. Active가 가진 설정값, 인터페이스 상태, L2 프로토콜 상태 등을 Standby에 실시간으로 계속 복사해 둡니다. 그래서 Active가 죽으면 Standby가 1초 내외로, 진행 중이던 상태 그대로 인수합니다.

💡 쉽게 비유하면
옆자리에서 같은 화면을 함께 보고 있던 동료입니다. 내가 갑자기 자리를 비워도, 그 동료는 지금까지의 진행 상황을 모두 알고 있어서 멈춤 없이 이어받습니다.

NSF (Non-Stop Forwarding) — SSO의 단짝

SSO가 '두뇌 교체'를 빠르게 해줘도, 두뇌가 바뀌는 그 짧은 순간에 라우팅 계산이 다시 이뤄집니다. 이때 데이터(트래픽) 전달까지 멈추면 통신이 끊깁니다. NSF는 바로 이 문제를 막습니다. 핵심 원리는 — 컨트롤 플레인(셰프)이 교체되는 동안에도, 데이터 플레인(요리사 + 이미 만들어둔 전달 표)은 계속 트래픽을 흘려보낸다는 것입니다.

💡 쉽게 비유하면
헤드 셰프가 갑자기 교체돼도, 주방의 요리사들은 이미 받아둔 주문서대로 계속 음식을 만들어 내보냅니다. 손님(트래픽)은 셰프가 바뀐 줄도 모르고 식사를 이어갑니다.
⚠️ 주의
NSF가 제대로 작동하려면 옆 장비(이웃)도 협조해줘야 합니다. 이를 가능하게 하는 것이 다음 장에 나오는 Graceful Restart입니다.

5. SSO + NSF, 무중단의 핵심 조합

실무에서는 거의 항상 SSO와 NSF를 함께 사용합니다. 둘의 역할은 명확히 나뉩니다.

  • SSO : 두뇌(컨트롤 플레인)를 빠르고 매끄럽게 교체
  • NSF : 교체되는 동안에도 트래픽 전달(데이터 플레인)이 멈추지 않게 유지

이 둘이 합쳐져서 장애가 발생해도 사용자는 거의 체감하지 못하는 수준의 무중단을 만들어냅니다. 슈퍼바이저 상태는 보통 아래처럼 확인합니다.

# show redundancy states
       my state = ACTIVE
     peer state = STANDBY HOT
           Mode = Duplex
Redundancy Mode = sso
Maintenance Mode = Disabled

① Graceful Restart (GR, 우아한 재시작)

NSF가 작동하려면 옆 장비가 "쟤가 지금 두뇌 교체 중이구나, 잠깐 기다려줄게"라고 협조해줘야 합니다. 그 약속이 GR입니다. OSPF, BGP 같은 라우팅 프로토콜에 이 기능이 들어 있습니다. 재시작하는 당사자를 NSF-capable, 옆에서 기다려주는 이웃을 NSF-aware(helper)라고 부릅니다. 단골손님에게 "셰프 교체 중이니 잠깐만요"라고 미리 양해를 구하는 것과 같습니다.

② NSR (Non-Stop Routing, 무중단 라우팅)

NSF는 이웃의 협조가 필요하지만, NSR은 라우팅 정보까지 Standby에 통째로 복사해 둬서, 이웃이 협조하지 않아도 — 아예 눈치채지 못하게 합니다. 대신 메모리와 CPU를 더 사용합니다. 대타 직원이 거래처 관계까지 전부 외워둬서, 거래처에 따로 통보할 필요조차 없는 상태입니다.

③ ISSU (In-Service Software Upgrade, 무중단 소프트웨어 업그레이드)

SSO와 NSF를 기반으로, 장비를 끄지 않고 OS를 업그레이드하는 기능입니다. ① Standby를 먼저 업그레이드 → ② 전환 → ③ 옛 Active를 업그레이드하는 순서로 진행합니다. 2차선 다리를 한 차선씩 번갈아 보수해서, 차량(트래픽)이 한 번도 완전히 멈추지 않게 하는 것과 같습니다.

④ VSS / StackWise Virtual (가상 스위칭)

물리적으로 분리된 두 대의 샤시를 하나의 논리 장비처럼 묶는 기술입니다. 슈퍼바이저 이중화가 한 장비 안의 슬롯 2개라면, 이것은 장비 자체를 2대로 이중화하는 셈입니다. 두 채널은 전용 링크로 연결됩니다. 서로 떨어진 두 건물을 하나의 회사처럼 운영하는 것과 비슷합니다.

⑤ RIB / FIB (라우팅 테이블과 전달 테이블)

슈퍼바이저는 모든 경로 정보를 담은 RIB(Routing Information Base, 전체 주소록)을 만들고, 이를 빠른 전달용으로 압축한 FIB(Forwarding Information Base, 요약 배달표)로 가공해 라인카드에 내려줍니다. NSF가 전환 중에도 트래픽을 흘릴 수 있는 이유가 바로, 라인카드에 이미 FIB(배달표)가 깔려 있기 때문입니다.

7. 자주 묻는 질문 (Q&A)

Q1. SSO와 NSF는 둘 중 하나만 쓰면 안 되나요?

기술적으로는 가능하지만 권장하지 않습니다. SSO는 '두뇌 교체'를, NSF는 '교체 중 전달 유지'를 담당하므로, 둘을 함께 써야 진짜 무중단에 가까워집니다. 보통 한 세트로 묶어 설정합니다.

Q2. NSF와 NSR의 가장 큰 차이는 무엇인가요?

NSF는 옆 장비의 협조(Graceful Restart)가 필요하고, NSR은 협조 없이 슈퍼바이저 내부에서 라우팅 상태까지 동기화합니다. NSR이 더 자원을 많이 쓰는 대신 이웃 설정에 의존하지 않습니다.

Q3. 슈퍼바이저가 하나뿐인 장비도 SSO를 쓸 수 있나요?

아니요. SSO는 Active/Standby 두 슈퍼바이저 사이의 상태 동기화가 전제이므로, 슈퍼바이저가 1개면 적용할 수 없습니다. 단, VSS처럼 장비 2대를 묶으면 장비 간 SSO가 가능합니다.

Q4. ISSU를 쓰면 업그레이드 중 트래픽이 정말 0초도 안 끊기나요?

목표는 무중단이지만, 환경과 프로토콜에 따라 아주 짧은 순간의 영향이 있을 수 있습니다. 그래서 ISSU도 트래픽이 적은 시간대에 점검 후 진행하는 것이 안전합니다.

Q5. RPR/RPR+는 이제 안 쓰나요?

대부분 SSO로 대체되었습니다. RPR·RPR+는 개념 이해와 기술 발전 흐름을 파악하는 용도로 알아두면 충분하고, 신규 구성에서는 SSO + NSF가 표준입니다.

#슈퍼바이저 #Supervisor #샤시형스위치 #백본스위치 #SSO #StatefulSwitchover #NSF #NonStopForwarding #NSR #ISSU #RPR #이중화 #GracefulRestart #VSS #네트워크기초 #도담인사이트

댓글

이 블로그의 인기 게시물

네이버 아이디 탈퇴, "서비스 해지 후 가능"이라고 뜨는 이유 (2026년 최신)

VPN이란 무엇인가? 사용 이유와 장단점 쉽게 설명

듀얼모니터 연결 및 설정 방법 초보자 가이드