什么是CDN?它是如何工作的?

嗨,你好呀,我是猿java

在网络如此发达的今天,如何能够跨地区实现数据,视频信息的快速加载?这篇文章,我们将分析其中非常重要的一个技术环节:CDN。

什么是CDN?

CDN,全称 Content Delivery Network,翻译为内容分发网络,它是一个地理分布的服务器和数据中心网络,旨在提高 Web 内容的性能和可用性。CDN 通过将副本存储在战略性地分布在世界各地的服务器上,从而减少延迟并加速静态资产(如图像、视频和脚本)的交付。

当用户请求内容时,CDN 会自动将请求路由到最近的服务器,从而最大限度地减少物理距离,从而减少加载时间。如下图,大概描述了CDN 模型的全貌:

img

为什么需要CDN?

CDN主要解决以下几种挑战:

  1. 减少延迟:通过从靠近用户的服务器提供内容,CDN最小化数据传输时间,从而加快加载速度并改善用户体验。
  2. 可扩展性:CDN可以通过将内容分布到多个服务器来处理高流量负载和突发需求,防止网站崩溃和停机。
  3. 可靠性:CDN通过减少服务器故障和网络拥堵的风险来提高内容传递的可靠性。它们还提供冗余和故障转移机制,以确保持续可用性。
  4. 分布式安全:CDN 通过在多个服务器上分发内容来提供额外的安全层。这有助于缓解分布式拒绝服务 (DDoS) 攻击,因为 CDN 可以在恶意流量到达源服务器之前吸收和缓解恶意流量。
  5. 负载均衡:CDN 通常采用负载均衡技术,以在多个服务器之间有效地分配传入流量。这样可以确保没有单个服务器过载,并有助于在流量高峰期间保持最佳性能。

CDN的组成部分

CDN由多个组件组成,如下图所示:

img

  1. 客户端(Client):请求CDN内容的终端用户设备(如笔记本电脑、智能手机)。

  2. 路由系统(Routing System):根据网络接近性和服务器可用性等因素确定内容传递的最佳路径。

  3. 清洗服务器(Scrubber Servers):过滤恶意流量,防护DDoS攻击等网络威胁。

  4. 代理服务器(Proxy Servers):缓存和传递内容给用户,减少源服务器的负载并提高性能。

  5. 分发系统(Distribution System):管理内容分发到边缘服务器,并确保网络内的一致传递。

  6. 源服务器(Origin Servers):存储内容的原始副本,并将其提供给 CDN进行缓存和分发。

  7. 负载均衡器(Load Balancers):这些组件将传入流量分布到多个服务器,优化性能并确保高可用性。

  8. 内容优化工具(Content Optimization Tools):在缓存和传递前预处理和优化内容,提高性能并减少带宽使用。

  9. 日志和监控工具(Logging and Monitoring Tools):这些工具跟踪 CDN性能指标,监控服务器健康状况,并提供流量模式和使用趋势的见解。

  10. 管理系统(Management System):控制和监控CDN的运行,包括配置、性能监控和分析。

CDN的工作原理

假设有这样的一个场景:韩国的用户希望访问托管在美国服务器上的视频网站。

  • 在没有 CDN的情况下,用户的请求需要跨越长距离,导致加载缓慢和缓冲问题。
  • 使用 CDN后,用户就可以从最近的节点获取数据流,大大缩减了数据加载的时长。

那么,整个工作流程是怎样的呢?

  1. 客户端:韩国的终端用户设备发送请求访问视频流网站。

  2. 路由系统:请求通过负载均衡器分配流量并优化内容传递,被路由到韩国最近的出入口(PoP)或边缘服务器。

  3. 代理服务器:韩国 PoP的代理服务器检查请求的视频内容是否在其缓存中。

  4. 内容优化工具:如果内容可用,则直接传递给用户,提升性能并减少带宽使用。否则,请求继续下一步。

  5. 源服务器:代理服务器从位于美国的源服务器获取请求的视频内容。

  6. 负载均衡器:负载均衡器用于在多个源服务器之间分配传入请求,优化资源利用并确保可扩展性。

  7. 分发系统:获取的内容随后分发到韩国的代理服务器以及全球其他边缘服务器或PoP。

  8. 内容缓存策略:内容在韩国的代理服务器上缓存以供未来请求使用,采用推送或拉取缓存等缓存策略以优化性能并减少延迟。

  9. 健康检查:CDN持续监控代理服务器和源服务器的健康状况和可靠性,确保高效的内容传递和容错能力。

  10. 管理系统:CDN管理系统控制和监控CDN的运行,包括配置、性能监控和分析,以确保最佳的CDN性能和用户体验。

整个流程如下图所示:

img

数据缓存策略

CDN 主要采用以下 2种数据缓存策略:

  1. 推送缓存:源服务器在内容被请求之前主动推送内容到边缘服务器,确保更快的传递给用户。

  2. 拉取缓存:边缘服务器在用户请求时实时从源服务器获取内容,减少存储需求并确保内容的新鲜度。

常见的问题

如何找到最近的代理服务器?

CDN是如何将寻找最近的代理服务器?两个关键因素如下:

  1. 网络距离又包含以下两个主要因素:

    • 网络路径长度:用户与代理服务器之间的物理距离决定了网络路径的长度。较短的路径通常会导致较低的延迟。

    • 容量(带宽)限制:网络路径上的容量或带宽也影响接近性。最佳接近性涉及选择路径最短且可用带宽最高的服务器。这确保了更快的内容传递给用户。

  2. 请求负载:代理服务器在任何给定时间的负载,即请求负载,是另一个重要考虑因素。如果一组代理服务器负载较高,请求路由系统应将请求重定向到负载较低的服务器。这有助于平衡代理服务器的负载并减少用户的响应延迟。

如何将请求路由到最近的代理服务器?

  1. DNS重定向:基于 DNS的重定向涉及将域名映射到靠近客户端的代理服务器的IP地址。当客户端发送DNS查询以解析域名时,DNS服务器响应最近代理服务器的IP地址,指导客户端到该服务器获取内容。

  2. Anycast:Anycast路由是一种网络寻址和路由技术,将数据包定向到共享相同IP地址的一组服务器中最近或性能最佳的节点。使用Anycast,多个代理服务器广播相同的IP地址,路由器根据网络拓扑自动将流量路由到最近的服务器,最小化延迟并提高可靠性。

  3. 客户端多路复用:客户端多路复用涉及在客户端和不同代理服务器之间保持多个并发连接。这允许客户端同时连接多个服务器,并选择延迟最低的服务器进行内容检索。

  4. HTTP重定向:基于HTTP的重定向涉及代理服务器使用HTTP状态码(如301(永久移动)或302(找到))将客户端重定向到更近的服务器。当客户端向代理服务器发送请求时,服务器评估客户端的位置并将请求重定向到最近的服务器进行数据检索。

总结

在实际工作种,大部分公司通常选择使用 CDN云产品,CDN 通过利用分布式边缘服务器网络,减少延迟,提高可靠性,并增强整体用户体验。通过本文对 CDN的分析,我们可以更好的理解 CDN的工作原理。

交流学习

最后,把猿哥的座右铭送给你:投资自己才是最大的财富。 如果你觉得文章有帮助,请帮忙转发给更多的好友,或关注公众号:猿java,持续输出硬核文章。

drawing