创建博客 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

放飞梦想的地方

理想展翅高飞的平台

 
 
 

日志

 
 

一套完整的网站架构方案

2006-10-25 11:33:49|  分类: 网站建设需求分析 |  标签: |举报 |字号 订阅

一、概述
  xx局是江苏省委、省直接关心和支持建立的唯一的大型重点综合性新闻门户网站,它

承担着正确引导网上舆论、及时传播江苏信息、汇集全省新闻资源、全面拓展网络服务的

职能。易宝北信在网站建设方面有雄厚的技术实力和很多成功经验,愿全力支持xx局的网

站建设。我们相信,xx局领导的超前意识和科学决策,加上易宝北信的核心技术和成功经

验,我们能够建成一个具有“实用性、安全性、可*性、方便性、扩展性、先进性、标准

化”的xx局网站业务支撑平台,圆满完成网站改造建设工程的设计目标。

  通过xx局与易宝北信的合作,充分运用易宝北信在网站建设方面的实力和经验,整合

后的xx局将实现内容管理平台、信息服务平台、业务管理平台以及商务服务平台的统一,

从而实现新闻的实时发布、信息的快速传播、内容的有效整合、资源的便捷共享、社区的

即时交流、服务的双向互动,成为江苏新闻在网络上最权威的媒体,江苏全省新闻信息资

源的汇集之地,同时xx局还将作为一个可*的网络技术平台,为江苏全省各新闻媒体上网

提供广泛服务。改造后的xx局的系统要求网络结构更加安全合理、服务器架构更加稳定实

用、应用系统更加方便可*、业务系统更加快速高效。整个系统应包含以下几个子部分:

网络管理系统:包括网络结构、服务器架构与有关硬件设备部署的整合设计;
应用管理系统:包括web服务、数据库服务、应用服务、邮件服务的整合设计;
业务管理系统:包括网站内容管理、社区论坛、资源管理、视频点播、短信娱乐、广告管

理等业务内容的整合设计;
网络安全系统:包括数据存储备份恢复、系统监控、流量分析、应用审计等网络安全的整

合设计。
二、需求分析
2.1 异构系统
  根据xx局提供的资料,目前所使用的服务器配置如下:

序号 型号 操作系统 配置
1 ibm rs 6000-h80   aix 4.3 内存:2g
2 ibm rs 6000-h80   aix 4.3 内存:1g
3 机架服务器 windows 2000 内存:1g
4 ibm netfinity 7100 freebsd 内存:1g
5 ibm netfinity 5600 linux 内存:1g
6 自配pc机 windows 2000 内存:512m
7 xseries 255 linux cpu:2 内存:1g
8 浪潮 nl 120p windows 2000 内存:1.5g

  从上表可以看出,在仅有的8台服务器中,存在小型机、塔式服务器、机架服务器、

pc机等多种机型,从配置上看,没有任何两台机器是完全相同的,8台服务器中并存了4种

操作系统(aix、windows 2000、freebsd、linux),这给系统管理带来了极大的不便。

   首先,从管理难度上看,可以按aix、freebsd、linux、windows 2000排序,排序越

前的系统,精通的人越少,管理成本越高,而同时精通四种系统的人成本就更是可想而知

。如果在低成本下勉强进行维护,则系统的稳定性、安全性都无法得到保证,长期持续,

整个网站的硬件基础令人担忧。

  其次,从互换性上看,如果一台服务器发生故障,很难用其它服务器直接替换,必然

会延长故障修复时间,造成网站长时间处于不可用状态,严重影响用户使用及xx局的形象

  第三,从服务器的利用角度看,两台最健壮的rs6000小型机不是用于最核心的数据库

服务,而是用于web相关服务,其卓越性能无法得到发挥,反而由于不是采用分布式负载

均衡结构而严重影响了用户访问速度和网站的大访问量承载能力。必然造成网站访问速度

日益下降。其效果就如同用推土机参加赛车一样,其马力再强劲也没有用处,因为它的设

计用途就不是在速度上而是在耐力上。

  从alexa网站(www.alexa.com,世界上最权威的第三方网站评价站点)上xx局的排名

(近三个月的平均排名为3108)来看,虽然与地方新闻门户的领头羊千龙网(近三个月的

平均排名为333)和东方网(近三个月的平均排名为698)还有相当大的差距,但也应该是

属于日访问量过百万pageview的大型新闻门户网站,目前的网站结构与这种高强度的访问

要求是极不相称的。如果xx局的下一步目标是赶超东方网和千龙网的话,就更需要合理调

整网站的整体硬件结构,以适应每天过千万pageview的访问量。

  所有超大型网站在web服务层的结构基本是一致的,即cache加上机架服务器群负载均

衡。

  首先,专用的cache服务器对大访问量的承载力要远远超过普通服务器(通常可以达

到1:5以上),因此,在服务器群前端使用专用的cache服务器是使网站能够适应千万级访

问量的最佳解决方案。

  其次,web服务器通常都是采用多台配置相同的机架式服务器(每台价格均在10万元

以下)通过专用的负载均衡设备形成web服务器群,从而很好地将用户访问流量平均分配

到各个服务器上,便于随时扩展,也便于故障排除,因为任何一台服务器发生故障并被撤

离的时候都不会影响到整个网站的访问,从而在最大程度上缩短了整个网站的不可用时间

  而对于应用核心的数据库服务器,通常会采用双机热备援,即两台数据库实时同步,

互为备份,当一台发生故障时,另一台自动接管它的全部服务,确保所有应用不间断运行

。当然,最重要的一点还是要及时进行数据备份,无论是数据库还是网页、文件都必须定

时备份,以便在意外情况下可以在最短的时间内恢复,同时保证数据损失最小。

  目前的结构与建议结构相差太远,如果不花大力气彻底改造的话,上述问题将会不断

加重,直至整个网站完全瘫痪。

  首先,要下决心统一硬件平台,尽管保护投资是非常重要的,但如果以网站的未来发

展为代价显然是不值得的。

  ibm rs6000小型机尽管已过了保修期,但其性能仍然非常卓越,对于金融领域的建设

项目非常有益,可以考虑与本地待建的金融项目进行相应协商,将两台小型机置换成机架

服务器,这对于建设双方而言都是非常有益的做法。如果置换困难的话,也建议将rs6000

作为数据库服务器,rs6000对于oracle数据库的支持要远胜于windows 2000,但相应的成

本会增加很多,维护起来的难度也将成倍加大。这个方法在技术上是可行的,但在维护上

需要斟酌。

  从网站的长远发展看,建议将两台小型机单独考虑作为未来的电子商务类的盈利性支

撑平台,在本次改造中将其上面的应用完全剥离出来;并重新规划整个网站的硬件平台,

以ibm/hp/dell的机架式服务器完全重组,并考虑对旧设备充分进行利用。

  其次,要统一操作系统,除了aix以外,另外三种操作系统都可以考虑。单从安全性

角度出发,freebsd是比较好的选择,目前新浪、网易等综合门户使用较多,但是熟悉该

系统的人相对较少。由于redhat以后将不会再推免费的linux,而且其安全性和稳定性也

并不是比windows高出很多,因此完全使用linux也需要慎重考虑。windows尽管口碑较差

,但在实际应用中很多大的门户中仍有大量的windows服务器存在,包括搜狐、千龙等,

如果有比较认真负责的系统管理员,windows 2000及其后续产品的综合成本还是最低的。

而且包括windows系统资源占用过高等问题都可以通过比较专业的调优工作得到大幅度改

善。一台windows 2000的iis服务器在调优前后的性能差异可以高达数十倍。建议采用

freebsd或windows 2003中的一种统一操作系统,以降低整个网站的维护成本。

2.2 异构应用
  xx局对外提供了很多种服务,其中社区、论坛、婚介、邮件等均是使用asp写的程序

,而软件下载则是使用jsp写的程序,xx局内部的发布系统iflow也是基于的系统。为了保

证跨平台应用和未来的迁移扩展,还是建议将程序写成版本,目前越来越多的web程序员

均精通asp、jsp、php等多种脚本语言,改写起来非常方便。
当然,应用程序的异构并不是太大问题,大多数网站都存在这种情况,但是应用程序编写

的水平高低常会造成应用层安全漏洞,从而威胁整个网站的安全,如果在成本有限的情况

下,考虑低成本的php也不失为好的方案。

2.3 异构数据
  发布系统iflow使用的数据库是windows版的oracle,而网站使用的动网论坛则使用的

是access或sqlserver,如果按照清华万博的建议,将会把发布系统数据库迁移到mysql上

  从数据库的性能上而言,oracle是当之无愧的最佳选择。而ibm的db2和微软的

sqlserver 2000也表现不错。千龙网到2003年5月以后才将部分数据库开始向oracle迁移

,而此前的应用一直是在sql server 2000上运行,效能是令人满意的。

  而mysql和access在多数方面与上述的大型数据库是无法比拟的,例如可以大幅度提

升数据库查询性能的存储过程、可以防止数据库错误发生的事务处理等高级性能它们都不

支持。mysql的下一个版本虽然声称会加入这些性能,但未经过长期考验的数据库性能是

不能令人信服的。

  因此将oracle数据库换成mysql是不明智的,应该说是一种倒退。而且将三个月以前

的数据切断也不是好的做法。要知道对于一个新闻网站而言组织历史数据制作专题报道是

非常重要的吸引网民的手段,也是作为新闻门户的立身之本。这就决定了切分历史数据将

会给编辑的工作带来极大的不便。

  与sqlserver自动调优不同的是,oracle数据库对人工优化的依赖程度特别高,默认

的安装选项几乎发挥不出oracle数据库性能的十分之一,而且oracle是支持群集和海量数

据的最佳选择,如果想快速发展的话,更没有理由不使用它了。

  xx局目前数据库内的数据量为39万条,目前所购小型机已过了三年保修期,按xx局运

行三年算,平均每天的新闻发稿量不到340条(当然发稿量一定是个渐近的数字,但就算

平均到一年,每天也不过1050条左右),这一数字与千龙网、东方网每天的3000-5000条

和新浪、搜狐每天的5000-10000条相比,根本算不了什么,因此绝不可能是因为数据库本

身的性能影响了系统的速度。

  如果iflow系统可以从oracle移植到mysql上的话,那只能说明这套系统根本就没有就

oracle数据库做过优化,没有利用任何大型数据库提供的高级功能,因此其访问效率必然

十分低下。

2.4 网站结构
  事实上财经频道根本就不存在江苏频道里的内容。这说明了iflow生成的目录结构存

在非常致命的问题,就是在同一天所有频道的内容都被混放在同一个目录中,然后通过不

同的虚拟主机让用户产生不同频道的错觉,事实上根本没有办法把这些文件拆分开。

  这样的话,就没有办法轻易实现象新浪、搜狐、千龙那样的分布式结构,即每个频道

都可以单独地采用一台或几台服务器,从而承载每天千万级甚至是亿级的访问量。这将会

给未来的系统改造带来极大的麻烦。

  虽然使用完全对等的多台web服务器也可以实现负载均衡,但过度的冗余最终还是会

影响到整个网站的性能。而且根据经验,这一拆分工作是十分艰巨的,估计至少会花费一

个程序员三、四个月的时间。这个问题也是必须解决的问题,是大型网站发展的重大瓶颈

问题。

2.5 内容海量
  根据刚才的分析,xx局目前的新闻更新量并不是很大,按照大多数新闻网站的发稿标

准,每人每天的额定工作量应该是50篇新闻,如果要达到千龙、东方每天3000-5000篇的

发稿量,应该至少保证60-100人的编辑队伍,而要达到新浪、搜狐每天5000-10000篇的发

稿量,应该至少保证100-200人的编辑队伍。

  事实上这些网站根本就没有使用这么多的编辑。大多数网站,包括新浪、搜狐、千龙

等均使用同一个自动信息采集软件(目前国内唯一能做到实用的,也是这几家大网站都统

一使用的软件叫作newshoo,尽管同类的采集产品很多,但都无法达到预期的采集效果)

与内容管理系统对接,直接将合作媒体的网站信息采集和自动发布,每天可以完成近50%

的工作量,从而大大提高了发稿数量,降低了人力成本。

2.6 内容深度
  仅从梅艳芳逝世专题而言,xx局的专题丰富程度比起新浪、搜狐和千龙而言都有极大

差距。一方面可能与发布系统的表现管理和专题组织速度有关,另一方面也与历史数据有

关。由于几大门户网站一直在使用newshoo软件采集来自互联网上的信息并输入到自身的

发布素材库中,因此编辑可以轻易找到很多可用素材,并且不必象在google上搜索一样要

经过拷贝、粘贴、整理就可以直接使用。

2.7 服务深度
  xx局提供了很多服务内容,从提出的改造需求看,改造后的服务广度将会进一步加强

。但就目前的几项服务看,做的深度都不够好。千龙网的论坛系统每天就可以形成200多

万的pageview,在整个网站的访问量中占有很重要的作用,仅专职的论坛社区的相关维护

人员就有十几个。xx局较有特色的软件下载等功能的实用性还远不如一些个人网站,如华

军(www.newhua.com)、中国站长站(www.chinaz.com)等,因此访问量不是很理想。从

alexa的流量分布看,xx局的最大一部分流量是来自于其“时尚”频道,即life.gdq.com

,但在首页上竟然对时尚这一频道的体现非常不明显,看来对网站的日志及其它相关的客

户访问分析工作还需要加强,并且需要加以充分利用。

2.8 发布系统
  万博目前已经放弃了发布系统市场,而业内比较有名的发布系统包括trs的wcm、千龙

网的龙讯还有天极、搜狐自己的发布系统等都各有千秋。但是扩大到内容管理的范畴,即

包括对整个网站的数据管理,目前国内的产品还都相对不太成熟,而国外的产品本地化做

得又不好,所以目前十分理想的方案很难找到。最好的办法就是根据xx局目前的实际情况

进行量体裁衣,出具具体的方案,有针对性的进行改造建设。

2.9 网络安全
  对于新闻网站而言,安全是非常重要的。建立一个安全体系需要比较大的投资,目前

安全系统相对比较成熟,以防火墙、漏洞扫描、入侵检测、网页防篡改等一系列产品构成

的防护体系应该是必不可少的。此类产品国外的相对成熟一些,但是很多地方有国产化要

求,具体选型需要根据情况酌定。尽管xx局一再声称网络安全做得不好,但经过使用一些

国内、外流行的黑客软件扫描后发现,除提供社区、婚介服务的机架式服务器上的serv-u

版本过老存在一定的安全风险外,其它的系统状况还基本良好,至少不会在非应用程序层

轻易被人攻破。

2.10 信息安全
  关于信息安全,或者说是内容过滤,由于存在理论研究上的瓶颈,因此一直没有特别

令人满意的产品出现,就研究水平而言,中科院软件所在这方面一直居于世界领先地位,

但其成果距离实用产品还有差距,因此目前市面上能看到的过滤方案都不能代替人工审核

。千龙网的论坛系统中已经做了比较复杂的内容过滤,但仍然需要大量的人力投入,足见

信息安全方面目前还没有什么好办法。

  评论这张
 
阅读(480)| 评论(0)
|      
推荐 转载

历史上的今天

最近读者

热度

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2014