2013/04/18 更新

[只是大框架介绍，实际使用中的不容易注意的细节太多了，需要经验的积累，才能运用娴熟]

以下的架构都是在假设已经优化过linux内核的情况下进行

初级篇：（单机模式）

假设配置：（Dual core 2.0GHz,4GB ram,SSD）

基础框架：apache(PHP) + Mysql/IIS + MSSQL

（最基础框架，处理一般访问请求）

进阶1：替换Apache为Nginx，并在数据库前加上cache层【数据库的速度是最大的瓶颈】

Nginx(PHP) + Memcache + Mysql

（此时已经具备处理小型访问量的能力）

进阶2：随着访问量的上涨，最先面临的问题就来了：CGI无法匹配上Nginx的高IO性能，这时候可以通过写扩展来替代脚本程序来提升性能，C扩展是个好办法，但是大家更喜欢用简单的脚本语言完成任务，Taobao团队开源了一个Nginx_lua模块，可以用lua写Nginx扩展，这时候可处理的并发已经超越进阶1 一个档次了。

Nginx(nginx_lua or C) + Memcache + Mysql

（此时处理个同时在线三四千人没有问题了）

进阶3：随着用户的增多，Mysql的写入速度成了又一大瓶颈，读取有memcache做缓存，但写入是直接面对Mysql，性能受到了很大阻碍，这时候，要在Nginx和Mysql中间加入一层写缓存，队列系统就出场了,就以RabbitMQ为例，所有写入操作全部丢到这只兔子的胃里面，然后屁股后面写个接应程序，一条条的拉出来再写入mysql。而RabbitMQ的写入效率是Mysql的N倍，此时架构的处理能力又上一阶层。

|----write------>RabbitMQ--------

Nginx（lua or c）----- |--------->Mysql

|----read------>Memcache--------

(此时的并发吞吐能力已经可以处理万人左右在线)

中级篇：（分而治之）

此时我们在单机优化上已经算是达到极限，接下来就要集群来显示作用了。

数据库篇： 数据库总是在整个环节中是吞吐能力最弱的，最常见的方法就是sharding。

sharding可以按多种方法来分，没有定式，看情况。可以按用户ID区段分，按读写分等等，可用参考软件：mysql proxy（工作原理类似lvs）

缓存篇：memcache一般采用的是构建memcache pool，将缓存分散到多台memcache节点上，如何将缓存数据均匀分散在各节点，一般采用将各节点顺序编号，然后hash取余对应到各个节点上去。这样可以做到比较均匀的分散，但是有一个致命点就是，如果节点数增加或减少，将会带来几乎80%的数据迁移，解决方案我们在高级篇再提。

WEB服务器篇： web服务器集群的建设，最常见的就是lvs方式(memcache pool同样可以如此组建)，lvs的核心就是调度节点，调度节点负责将流量通过算法分散到各个节点上，因调度所耗资源很少，所以可以产生很高的吞吐率，后台节点数量可以任意增删，但此法弊病就是如果调度节点挂了，则整个集群都挂了，解决方案我们在高级篇提。

方法2:参见

HAProxy - The Reliable, High Performance TCP/HTTP Load Balancer

高级篇：（高可用性+高可扩展性的集群）

单点调度故障解决：

集群的好处显而易见，但是有一个弊端就是单节点进行调度，如果节点出现故障，则整个集群全部都无法服务，对此的解决方案，我们使用keepalived来解决。

Keepalived for Linux

keepalived是基于VRRP协议（

VRRP协议介绍

）的，请一定先了解VRRP协议后再进行配置。

keepalived可以把多台设备虚拟出一个IP，并自动在故障节点与备用节点之间实现failover切换。这样我们配置两台货多台lvs调度节点，然后配置好keepalived就可以做到lvs调度节点出现故障后，自动切换到备用调度节点。（同样适用于mysql）

memcache集群扩展解决：

memcache因为我们一般采用的都是hash后除以节点数取余，然后分配到对应节点上，如果节点数出现变化，以前的缓存数据将基本都不能命中。

解决方法：consistent hashing 简介：

一致性哈希

consistent hashing大概的思路就是，把hash后的值保证在 0 ~ (2^32)-1 的数值上，然后把这一连串数字对应映射到一个想象的圆上。

把要存储的各个值hash后，放到圆上，如图

然后把cache节点也用同样的hash方法，映射到圆上，然后每个刚才hash过的value顺时针寻找离自己最近的节点，这个节点就是存储它的节点。

为了提高存储的平衡性，算法还可以加入虚拟节点的概念，即每个实际cache节点，会在圆上对应N个虚拟的节点，这样可以提高算法的命中率，更加平衡。

consistent hashing原理：

Consistent hashing and random trees

完结。

另：以上图片来自互联网，未找到原创者，故未标注来源。

欢迎署名转载。

系统架构演化历程-初始阶段架构

初始阶段的小型系统应用程序、数据库、文件等所有的资源都在一台服务器上通俗称为LAMP特征：应用程序、数据库、文件等所有的资源都在一台服务器上。描述：通常服务器操作系统使用linux，应用程序使用PHP开发，然后部署在Apache上，数据库使用Mysql，汇集各种免费开源软件以及一台廉价服务器就可以开始系统的发展之路了。

系统架构演化历程-应用服务和数据服务分离

好景不长，发现随着系统访问量的再度增加，webserver机器的压力在高峰期会上升到比较高，这个时候开始考虑增加一台webserver特征：应用程序、数据库、文件分别部署在独立的资源上。描述：数据量增加，单台服务器性能及存储空间不足，需要将应用和数据分离，并发处理能力和数据存储空间得到了很大改善。

系统架构演化历程-使用缓存改善性能

特征：数据库中访问较集中的一小部分数据存储在缓存服务器中，减少数据库的访问次数，降低数据库的访问压力。描述：系统访问特点遵循二八定律，即80%的业务访问集中在20%的数据上。缓存分为本地缓存和远程分布式缓存，本地缓存访问速度更快但缓存数据量有限，同时存在与应用程序争用内存的情况。

系统架构演化历程-使用应用服务器集群

在做完分库分表这些工作后，数据库上的压力已经降到比较低了，又开始过着每天看着访问量暴增的幸福生活了，突然有一天，发现系统的访问又开始有变慢的趋势了，这个时候首先查看数据库，压力一切正常，之后查看webserver，发现apache阻塞了很多的请求，而应用服务器对每个请求也是比较快的，看来是请求数太高导致需要排队等待，响应速度变慢特征：多台服务器通过负载均衡同时向外部提供服务，解决单台服务器处理能力和存储空间上限的问题。描述：使用集群是系统解决高并发、海量数据问题的常用手段。通过向集群中追加资源，提升系统的并发处理能力，使得服务器的负载压力不再成为整个系统的瓶颈。

系统架构演化历程-数据库读写分离

享受了一段时间的系统访问量高速增长的幸福后，发现系统又开始变慢了，这次又是什么状况呢，经过查找，发现数据库写入、更新的这些操作的部分数据库连接的资源竞争非常激烈，导致了系统变慢特征：多台服务器通过负载均衡同时向外部提供服务，解决单台服务器处理能力和存储空间上限的问题。描述：使用集群是系统解决高并发、海量数据问题的常用手段。通过向集群中追加资源，使得服务器的负载压力不在成为整个系统的瓶颈。

系统架构演化历程-反向代理和CDN加速

特征：采用CDN和反向代理加快系统的访问速度。描述：为了应付复杂的网络环境和不同地区用户的访问，通过CDN和反向代理加快用户访问的速度，同时减轻后端服务器的负载压力。CDN与反向代理的基本原理都是缓存。

系统架构演化历程-分布式文件系统和分布式数据库

随着系统的不断运行，数据量开始大幅度增长，这个时候发现分库后查询仍然会有些慢，于是按照分库的思想开始做分表的工作特征：数据库采用分布式数据库，文件系统采用分布式文件系统。描述：任何强大的单一服务器都满足不了大型系统持续增长的业务需求，数据库读写分离随着业务的发展最终也将无法满足需求，需要使用分布式数据库及分布式文件系统来支撑。分布式数据库是系统数据库拆分的最后方法，只有在单表数据规模非常庞大的时候才使用，更常用的数据库拆分手段是业务分库，将不同的业务数据库部署在不同的物理服务器上。

系统架构演化历程-使用NoSQL和搜索引擎

特征：系统引入NoSQL数据库及搜索引擎。描述：随着业务越来越复杂，对数据存储和检索的需求也越来越复杂，系统需要采用一些非关系型数据库如NoSQL和分数据库查询技术如搜索引擎。应用服务器通过统一数据访问模块访问各种数据，减轻应用程序管理诸多数据源的麻烦。

系统架构演化历程-业务拆分

特征：系统上按照业务进行拆分改造，应用服务器按照业务区分进行分别部署。描述：为了应对日益复杂的业务场景，通常使用分而治之的手段将整个系统业务分成不同的产品线，应用之间通过超链接建立关系，也可以通过消息队列进行数据分发，当然更多的还是通过访问同一个数据存储系统来构成一个关联的完整系统。纵向拆分：将一个大应用拆分为多个小应用，如果新业务较为独立，那么就直接将其设计部署为一个独立的Web应用系统纵向拆分相对较为简单，通过梳理业务，将较少相关的业务剥离即可。横向拆分：将复用的业务拆分出来，独立部署为分布式服务，新增业务只需要调用这些分布式服务横向拆分需要识别可复用的业务，设计服务接口，规范服务依赖关系。

系统架构演化历程-分布式服务

特征：公共的应用模块被提取出来，部署在分布式服务器上供应用服务器调用。描述：随着业务越拆越小，应用系统整体复杂程度呈指数级上升，由于所有应用要和所有数据库系统连接，最终导致数据库连接资源不足，拒绝服务。

这个问题之宽泛已经跨越银河系了_(:з」∠)_

哥哥我只能从初级到高级一点点解释了~~~~

圈子里有一个伟人说过一句话：

亿万级的架构是逐步演化出来的，傻缺才会上来就直接照着亿万级的来搭(´ᴥ`) ...（没错这个伟人就是我），所以这里只是解释下不同量级下的架构形式，具体要看业务规模和体量。

补一个，中小型网站推荐的技术选型LAMP ( linux+apache+mysql+php )。

大型网站的架构技术则可以灵活选择。

新生儿：

最初的网站一般只是个demo，老板拿去给朋友们看看，恩，小伙子网站做的不错，给你加工资∠( ᐛ 」∠)＿，这个时期资源成本和时间成本第一，一般程序，数据库，文件都放在一台服务器，如下图：

这个时期可以说不存在太多架构的概念，apache/ IIS + MYSQL/MSSQL + PHP/JAVA/NET 等选型都可以，具体看公司的技术合伙人的方向，技术合伙人来确定方案和选型即可。

1周岁：

度过了前期的磨合，业务量开始稳步上升之后就建议开始做分离的工作了，可以根据服务器的用途不同，选用不同的配置安排：

假设业务情况涉及到的文件会比较多，建议可以做多台文件服务器对文件进行储存，比如电商类的商品文描图片及主图，多域名，多服务器储存。

即便是业务初期，也建议至少有一台热备服务器，不需要太高的配置，实时对业务数据库进行备份即可。

2周岁：

一般到了这个阶段之后，为了减轻数据库压力防止锁死，以及提高访问速度，可以开始考虑对核心业务做分布式缓存处理了。

一般来讲，业务初期可以考虑使用一些成熟的缓存引擎，比如resin等，将搜索，商品详情，CMS等页面基于此做缓存处理。

另外就是现在CDN服务的费用目前来讲成本要比以往低很多了，所以这个阶段可以考虑购买CDN的服务了：

5周岁：

如果进入这个阶段，那么首先恭喜你，开始走上正轨了<(￣▽￣)>

一般到了这个阶段，随着访问量逐渐增加，即便有缓存的存在，数据库仍旧会有很大的瓶颈，尤其是电商类网站高并发下单的场景，或者知乎这类一堆人给我点赞刷评论的情况（虽然并没有╮(╯_╰)╭，一般初步改善数据库压力的方案就是做读写分离，然后进一步的操作就是分库分表。

另外一点就是，考虑到业务量极大，为了防止出现线上事故影响服务，另外就是分担网站入口的请求，因此需要部署负载均衡服务器。因为网站是一辆需要一直跑的汽车，不能停车换轮，负载均衡的作用之一就是保证每次修轮胎的时候，车子仍然在跑：

------------------------------------------

啊...要忙了，回来接着写，如果点赞的人多，就给你们看看我们集团的服务中心的架构~~~

可以看看这本书

http://book.douban.com/subject/25723064/

大型网站技术架构

其实很多大公司都会把自己的架构公开，只有国内公司藏着掖着

Evernote：http://blog.evernote.com/tech/2011/05/17/architectural-digest/Dropbox：http://www.youtube.com/watch?v=PE4gwstWhmcFacebook：http://www.makeuseof.com/tag/facebook-work-nuts-bolts-technology-explained/StackOverflow：http://highscalability.com/blog/2009/8/5/stack-overflow-architecture.html P.S. 仅有的一个Windows-based技术堆栈

其他慢慢补充

常见的网站服务器架构有哪些？

大型网站技术架构

相关文章

谁有能用的代理IP可用啊，，最好是国外的

品牌打假报告_卖假药的热衷电商，影视盗版网站IP多在美国

微信免费代理ip[路演]天音控股：公司是苹果中国区核心代理商，长期保持领先的市场份额

windows7上装了docker还有必要装cygwin吗

Maven设置代理服务器http和https

盗号、薅羊毛、机器注册、恶意爬虫——618年中大促背后的暗流