N년 차 엔지니어의 사생활
  • Edge service 란 ?
    2026년 03월 10일 11시 14분 44초에 업로드 된 글입니다.
    작성자: zinok
    Infrastructure Deep Dive

    Edge Service / Edge Offloading
    — 글로벌 CDN·보안 플레이어 정리

    트래픽이 출발지 서버까지 가지 않아도 되는 세상. Edge가 그 답이다. 개념부터 주요 글로벌 벤더까지 한 번에 정리했다.
    웹 서비스를 운영하다 보면 어느 순간 "왜 미국 사용자는 빠른데 한국 사용자는 느리지?" 같은 질문을 마주친다. 혹은 반대로. 결국 네트워크 거리와 서버 부하의 문제다. 이걸 풀기 위한 구조적 해법이 엣지(Edge)다. 오늘은 Edge Service와 Edge Offloading의 개념, 그리고 이 시장을 이끄는 글로벌 플레이어들을 실무 관점에서 정리해본다.

    Edge란 무엇인가

    'Edge'는 사용자와 가장 가까운 네트워크 지점을 의미한다. 전통적인 웹 아키텍처에서는 모든 요청이 중앙 오리진 서버까지 왕복해야 했다. 서울 사용자가 미국 버지니아 데이터센터까지 패킷을 보내고 받아야 하는 상황. RTT(Round Trip Time)가 수백 ms씩 발생하고, 트래픽 폭주 때는 서버가 그 모든 부하를 받아야 한다.
    핵심 개념
    Edge = "오리진 서버 앞에 세워둔 분산 인프라층"
    사용자 근처의 PoP(Point of Presence)에서 요청을 처리하거나 필터링해 오리진의 부담을 줄인다.
    Edge 인프라는 전 세계 수십~수백 개의 PoP을 갖고 있다. 사용자 요청이 들어오면 DNS 또는 Anycast 라우팅으로 가장 가까운 PoP으로 유도된다. 콘텐츠가 이미 PoP에 캐싱되어 있으면 오리진까지 가지 않아도 응답이 가능하고, 보안 처리(DDoS 차단, WAF 등)도 이 레이어에서 이루어진다.
    Client → Edge PoP → Origin 트래픽 흐름
    Client 사용자 브라우저 앱 / 서비스 Edge PoP Tokyo · Seoul · Singapore DDoS 차단 · WAF · Bot 필터 TLS 종료 (HTTPS Offload) Cache Hit / Miss 판단 Edge Compute Origin App Server · DB US-East / IDC ① HTTPS 요청 ② Cache Hit — 즉시 응답 ③ Cache Miss → Origin 요청 ④ 응답 수신 + 캐싱 Cache Hit 경로 (~10–30ms RTT) Cache Miss → Origin 경유 (~100–300ms) 보안 레이어 TLS 종료 캐시

    Edge Offloading이란

    Offloading은 오리진 서버가 직접 처리해야 할 작업을 Edge 레이어로 옮기는 것이다. 크게 세 가지 범주로 나눌 수 있다.
    Offloading 유형 정리
    0. HTTPS / TLS 종료 (HTTPS Offloading) ← 이 글에서 별도 심화 다룸 └─ 클라이언트-Edge 간 TLS 핸드셰이크를 Edge에서 처리 └─ 오리진은 TLS CPU 비용 없이 HTTP 또는 재암호화 HTTPS로 수신 1. 콘텐츠 캐싱 (Content Offloading) └─ 정적 파일(이미지, JS, CSS), API 응답 캐싱 └─ 오리진 요청 수를 수십~수백 배 줄임 2. 보안 처리 (Security Offloading) └─ DDoS 완화, WAF, Bot 탐지 └─ 악성 트래픽이 오리진에 도달하기 전에 차단 3. 컴퓨팅 오프로딩 (Edge Compute) └─ 인증 토큰 검증, A/B 테스트 라우팅, 응답 변환 └─ 서버리스 함수(Workers, Lambda@Edge 등)로 실행
    실무에서 Offloading 효과는 극적이다. 글로벌 트래픽의 70~90%가 캐시 히트로 처리되면 오리진 서버 스펙을 대폭 줄일 수 있다. 비용과 응답 속도 모두에서 이점이 생긴다.

    HTTPS Offloading — TLS 종료의 의미

    Edge Offloading 중에서 가장 자주 간과되지만 실질적 효과가 큰 것이 HTTPS Offloading(TLS Termination)이다. 클라이언트와 오리진 사이의 TLS 암호화는 아무것도 아닌 것처럼 보이지만, 고트래픽 서비스에서 TLS 핸드셰이크 CPU 비용은 무시할 수 없는 수준이다. Edge에서 이 처리를 대신 받아주면 오리진 서버는 암호화 오버헤드 없이 순수 비즈니스 로직에만 집중할 수 있다.
    HTTPS Offloading — TLS 종료 구간 및 암호화 흐름
    PUBLIC INTERNET — 항상 HTTPS 암호화 내부 구간 — 모드에 따라 선택 Client 브라우저 / 앱 TLS 검증 Edge PoP TLS 종료 인증서 관리 TLS 1.3 / QUIC CPU 부담 흡수 오리진 대신 처리 Origin App Server TLS 부담 없음 HTTPS · TLS 1.3 응답 (암호화) HTTP or HTTPS 응답 반환 Mode: Flexible — Edge↔Origin = HTTP Full — Edge↔Origin = HTTPS (인증서 검증 생략) Full Strict — 유효 인증서 필수

    Edge ↔ Origin 구간의 3가지 암호화 모드

    모드 Client ↔ Edge Edge ↔ Origin 특징 및 주의점
    Flexible HTTPS HTTP (평문) Origin 설정이 가장 단순. 단, Edge→Origin 구간이 평문이므로 민감 데이터 서비스에는 부적합
    Full HTTPS HTTPS Origin에 자체 서명 인증서도 허용. 인증서 유효성을 검증하지 않아 MITM 위험 잔존
    Full (Strict) HTTPS HTTPS Origin에 유효한 CA 서명 인증서 필요. 가장 안전. 프로덕션 권장 설정
    실무 포인트
    Flexible 모드는 설정 편의성 때문에 많이 쓰이지만, Edge와 Origin 사이 네트워크가 내부 사설망이 아닌 공인망을 경유하는 경우 실질적 보안 위험이 있다. 사용자 자격증명, 결제 정보 등이 오가는 서비스라면 반드시 Full Strict를 적용해야 한다. Cloudflare 기준으로는 Origin CA Certificate를 발급해 Origin에 설치하는 것이 권장 방법이다.

    HTTPS Offloading으로 얻는 것들

    HTTPS Offloading 효과 정리
    1. TLS 핸드셰이크 CPU 비용 분산 └─ Origin 서버가 TLS 처리 없이 순수 응용 계층에만 집중 └─ 대규모 트래픽에서 오리진 인스턴스 수 감소 가능 2. 인증서 관리 단일화 └─ Cloudflare / Akamai 등이 인증서 자동 갱신 관리 └─ Origin에 별도 인증서 불필요 (Flexible 모드 한정) 3. TLS 1.3 / QUIC 즉시 지원 └─ Origin이 구형 스택이어도 Edge에서 최신 프로토콜 지원 └─ HTTP/3 (QUIC) 을 Origin 변경 없이 프론트엔드에만 적용 가능 4. 글로벌 TLS 세션 재사용 └─ Edge PoP에서 클라이언트 TLS 세션 유지 └─ 반복 접속 시 핸드셰이크 비용 없이 재연결

    글로벌 플레이어 비교

    시장은 크게 전통적 CDN 강자, 클라우드 네이티브 CDN, 특수 목적 Edge로 구분된다. 각 벤더의 특징을 실무 관점에서 정리했다.
    Cloudflare CDN · 보안 · Edge Compute

    현재 가장 공격적으로 영역을 확장 중인 플레이어. 무료 플랜부터 Enterprise까지. Workers로 Edge 컴퓨팅이 가능하고 Zero Trust, R2(스토리지), D1(DB)까지 합쳐 사실상 Edge 플랫폼으로 진화했다. PoP 300개 이상. 설정 편의성이 높다.

    Akamai 엔터프라이즈 CDN

    1990년대부터 이어진 CDN 원조. 가장 넓은 PoP 네트워크(4,000개 이상)와 엔터프라이즈 급 SLA. 미디어 스트리밍, 금융, 공공 분야에서 아직 강세. 최근 Linode(리노드) 인수로 클라우드 인프라도 강화했다. 가격은 비싸지만 안정성이 높다.

    Fastly Edge Cloud

    실시간 캐시 퍼지와 VCL(Varnish Configuration Language) 기반의 유연한 설정이 강점. 개발자 친화적인 API. GitHub, Spotify, Reddit이 사용하는 것으로 알려져 있다. 최근 Edge Compute 플랫폼인 Compute@Edge로 서버리스 영역도 진출.

    AWS CloudFront 클라우드 네이티브

    AWS 생태계 안에서 쓰기엔 최적. Lambda@Edge, CloudFront Functions로 엣지 컴퓨팅 가능. S3, ALB, API Gateway와의 네이티브 연동이 강점. 복잡한 설정과 egress 비용이 단점으로 자주 언급된다.

    Google Cloud CDN / Media CDN 클라우드 네이티브

    Google의 글로벌 프리미엄 백본 네트워크를 그대로 활용. 특히 Media CDN은 대규모 스트리밍에 최적화되어 있다. Cloud Armor와 함께 쓰면 DDoS·WAF 처리도 가능. GCP 위주 스택이라면 자연스러운 선택.

    Azure Front Door 클라우드 네이티브

    글로벌 로드밸런싱 + CDN + WAF를 하나로. 마이크로소프트 글로벌 WAN 기반. Rules Engine으로 라우팅 규칙 커스터마이징 가능. Azure 생태계 사용자에게 적합하며 엔터프라이즈 계약 시 비용 협상 여지가 있다.

    Vercel Edge Network 프론트엔드 특화

    Next.js 생태계와 찰떡. Edge Middleware로 인증·리다이렉트·지역화 처리. 빌드 산출물을 자동으로 글로벌 Edge에 배포. 소규모~중규모 웹앱에서 DevX가 압도적이다. 대규모 트래픽에는 비용 구조를 꼼꼼히 따져봐야 한다.

    Imperva (구 Incapsula) 보안 특화

    CDN보다 보안이 주목적인 플레이어. WAF, DDoS, Bot 관리, API 보안이 핵심 강점. 금융·의료 등 규정 준수가 중요한 업종에서 많이 선택. CDN 기능은 부가적. 최근 Thales에 인수되었다.


    벤더 포지셔닝 한눈에 보기

    벤더 주력 Edge Compute 보안 특이점
    Cloudflare CDN + 보안 Workers (V8) DDoS / WAF / ZT Edge 플랫폼 전체 통합 지향
    Akamai CDN EdgeWorkers Kona Site Defender PoP 최다, 엔터프라이즈 SLA
    Fastly CDN Compute@Edge Next-Gen WAF VCL 유연성, 개발자 친화
    AWS CloudFront 클라우드 Lambda@Edge, CF Functions Shield / WAF AWS 생태계 네이티브
    GCP CDN 클라우드 Media CDN 특화 Cloud Armor Google 백본 활용
    Azure Front Door 클라우드 Rules Engine Azure WAF 글로벌 LB + CDN 통합
    Vercel 프론트엔드 Edge Middleware 기본 Next.js 특화, DX 최고
    Imperva 보안 없음 WAF / DDoS / Bot 규정 준수 업종 특화

    어떤 걸 선택해야 하나

    선택 기준
    "어떤 벤더가 제일 좋냐"는 질문에는 답이 없다. 스택, 트래픽 패턴, 예산, 보안 요건에 따라 최적해가 달라진다.
    실무에서 자주 마주치는 선택 시나리오별로 정리해보면 이렇다. AWS 위에 서비스를 올리고 있다면 CloudFront가 가장 자연스럽다. egress 비용 절감, 네이티브 연동, Shield Standard 포함이 장점이다. 반면 멀티클라우드나 온프렘 오리진이 섞여 있다면 Cloudflare가 훨씬 유연하다. DNS를 Cloudflare로 옮기기만 해도 즉시 CDN + DDoS 보호가 붙는다.
    트래픽이 폭발적으로 크고 SLA가 중요한 미디어·방송 업종이라면 Akamai의 엔터프라이즈 네트워크가 아직 경쟁력이 있다. 개발 속도와 Next.js 스택을 쓰는 팀이라면 Vercel을 빼고 얘기하기 어렵다. 인프라를 신경 쓸 필요 없이 배포하는 것만으로 글로벌 Edge가 세팅된다.
    판단 트리 (간략)
    AWS 스택 위주 → AWS CloudFront + Shield 멀티클라우드 / 오리진 무관하게 가장 빠른 설정 → Cloudflare (Free/Pro/Biz) 엔터프라이즈, 미디어 스트리밍, 높은 SLA 요구 → Akamai or Fastly 보안이 최우선 (금융, 의료, 공공) → Imperva or Cloudflare Enterprise Next.js + 빠른 프론트엔드 배포 → Vercel (소규모) or Cloudflare Pages (중규모~)

    Edge Compute — 다음 단계

    최근 CDN의 역할이 단순 캐싱을 넘어 Edge Computing으로 확장되고 있다. Cloudflare Workers, Fastly Compute@Edge, AWS Lambda@Edge 모두 V8 이나 WASM 런타임을 PoP에 올려서 실제 코드를 실행한다. 예를 들어 JWT 토큰 검증을 Edge에서 처리하면 오리진 서버로 가기 전에 인증이 끝난다. 지역별 A/B 테스트 라우팅, 응답 헤더 수정, 이미지 최적화 등도 오리진 부하 없이 Edge에서 처리할 수 있다.
    주목할 흐름
    Deno Deploy, Netlify Edge Functions, Supabase Edge Functions 등 개발자 도구들이 Edge Compute를 기본으로 채택하고 있다. 서버리스 + Edge의 결합이 2020년대 중반 이후 인프라의 기본값이 되어가는 추세다.

    Edge가 SPOF가 된다 — 2025년 11월 Cloudflare 장애

    Edge 인프라의 성장을 이야기할 때 빼놓을 수 없는 사건이 있다. 2025년 11월 18일, Cloudflare가 전 세계 동시 장애를 일으켰다. 그리고 인터넷의 상당 부분이 같이 멈췄다.
    사건 요약 — 2025.11.18 Cloudflare 글로벌 장애
    원인: Bot Management 시스템의 "feature file" 무한 증가 → 트래픽 처리 소프트웨어 크래시
    시작: 11:20 UTC (오전 8:20 EST) / 해결: 약 6시간 후
    영향: 전 세계 수십억 사용자, 수만 개 서비스 동시 접속 불가
    장애 원인은 사이버 공격이 아니었다. 데이터베이스 권한 변경 작업 중 중복 데이터가 생성되었고, 이 데이터가 봇 탐지용 설정 파일 크기를 2배로 키웠다. 파일이 예상 크기를 초과하자 트래픽 처리 소프트웨어가 충돌하면서 글로벌 전파가 시작됐다. 5분마다 파일이 재생성되는 구조였기 때문에 엔지니어들은 초반에 대규모 DDoS 공격으로 착각하기도 했다.

    같이 쓰러진 서비스들

    AI 플랫폼 전멸 수준

    ChatGPT, Sora (OpenAI) — 서비스 전면 중단
    Claude (Anthropic) — 접근 불가, 500 에러
    Perplexity AI — 검색 및 쿼리 불가
    Gemini (Google) — 간헐적 장애

    OpenAI 상태 페이지는 "third-party service provider" 장애로 표기했다. 그 서드파티가 Cloudflare였다.

    소셜·미디어·커머스 수천 개

    X(Twitter), Truth Social, Spotify
    Shopify, Canva, Notion, Indeed
    Uber Eats, DoorDash, McDonald's 키오스크
    League of Legends, Valorant

    게임 서버부터 패스트푸드 주문 키오스크까지. 영향의 범위가 충격적이었다.

    아이러니한 피해 메타 장애

    DownDetector — 장애 추적 사이트 자체가 다운
    Cloudflare 상태 페이지 — 접근 불가
    NJ Transit 대중교통 앱 — 서비스 중단
    핵발전소 인력 접근 시스템(PADS) — 영향 받음

    장애를 확인하는 도구들까지 같이 죽었다.

    Cloudflare 공식 입장
    "Cloudflare's software is used by many businesses worldwide, helping to manage and secure traffic for about 20% of the web." "Given the importance of Cloudflare's services, any outage is unacceptable. We apologize to our customers and the internet in general for letting you down today." — Cloudflare 대변인, 2025년 11월 18일

    이게 SPOF 문제인 이유

    Edge 서비스의 역설이 여기 있다. 분산을 위해 도입한 인프라 레이어가 그 자체로 중앙화 지점이 된다. Cloudflare 하나가 웹 트래픽의 약 20%를 처리한다. 이 수치는 "효율의 증거"이기도 하지만, 동시에 "집중 리스크의 증거"이기도 하다. CDN·Edge 시장이 소수 플레이어로 집중될수록 이 리스크는 커진다.
    Cisco 네트워크 모니터링 통계
    2025년 기준 주요 인터넷 장애 건수가 증가 추세다. 공통 원인 패턴으로는 설정 변경이 연쇄 장애를 유발하는 구조, 정상처럼 보이지만 조용히 실패하는 시스템, 그리고 자동화된 배포 파이프라인의 버그 전파가 반복적으로 등장한다.
    비슷한 사례가 Cloudflare만의 문제가 아니라는 것도 중요하다. 2021년 Fastly 장애는 약 1시간 만에 뉴욕타임스, Reddit, GitHub, Twitch를 동시에 다운시켰다. 2024년 CrowdStrike 패치 장애는 항공기 결항, 병원 수술 지연, 금융 서비스 중단을 일으켰으며 포춘 500 기업들의 직접 손실은 54억 달러로 추산됐다. 구조적 패턴이 반복되고 있다.
    사례 날짜 원인 영향
    Fastly 2021.06 잘못된 설정 배포 NYT, Reddit, GitHub 등 ~1시간 중단
    CrowdStrike 2024.07 소프트웨어 패치 버그 항공·병원·금융 마비, F500 손실 $54B
    AWS 2025.10 인프라 장애 커피 주문, 스마트홈까지 영향
    Cloudflare 2025.11.18 Bot feature file 크기 초과 Claude, ChatGPT, X 등 6시간 중단
    Cloudflare 2025.12.05 내부 서버 오류 X, LinkedIn 등 500 에러

    그래서 어떻게 해야 하나

    실무적으로 SPOF 리스크를 완전히 제거하기는 어렵다. 하지만 줄이는 것은 가능하다. 다음은 실제로 고려할 수 있는 접근들이다.
    SPOF 리스크 완화 전략
    1. 멀티 CDN 구성 └─ 두 개 이상의 CDN을 병렬 운영 (Cloudflare + CloudFront 등) └─ DNS 기반 장애 감지로 자동 전환 (failover) 2. 오리진 직접 접근 경로 유지 └─ CDN 우회 IP를 내부적으로 보존 └─ Edge 장애 시 직접 접근 가능한 fallback URL 3. 모니터링 도구 분리 └─ 상태 페이지와 모니터링 도구는 별도 인프라에 └─ Cloudflare 의존 모니터링 → 장애 시 같이 죽음 4. 의존성 명확화 └─ 서비스 아키텍처에서 Edge 의존 범위를 명시 └─ SLA에 Edge 벤더 장애 시나리오 반영
    Edge는 분명 강력하다. 하지만 그 강력함이 동시에 집중 리스크를 만든다. "Cloudflare가 재채기하면 인터넷의 20%가 감기에 걸린다" — 이 표현이 과장이 아닌 세상이 됐다. Edge 시장이 성숙할수록, 아키텍처 설계 단계에서 이 리스크를 의식적으로 다뤄야 한다.

    Edge는 더 이상 "대형 서비스나 쓰는 것"이 아니다. Cloudflare 무료 플랜만 붙여도 DDoS 기본 차단과 정적 자산 캐싱이 즉시 되는 세상이다. 오리진 서버에 무한정 투자하는 것보다, 요청 자체를 오리진까지 도달하지 않게 만드는 구조가 훨씬 효율적이다. 다만 그 구조가 단일 벤더에 과도하게 의존하는 순간, 분산 아키텍처가 역설적으로 SPOF가 된다. Edge Offloading의 설계는, 그 균형을 잡는 일이기도 하다.
    댓글