Web基本知识Web(WorldWideWeb、万维网)技术是电子商务的核心技术。Web的思想可追溯到TimBerners-Lee于1989年3月在CERN(CentreEuropeanpourlaRechercheNucleaire,或称EuropeanLaboratoryforParticlePhysics、欧洲粒子物理实验室)写的一个关于信息管理的项目建议书(InformationManagement:AProposal)。该建议书提出了分布式超文本系统的设想,旨在将CERN已有的几个信息服务器一体化,并提供一个简单的用户界面来存取各种形式的信息。1990年Web浏览器和Web服务器使用面向对象技术相继在CERN实现。Berners-Lee和他的合作伙伴成功引入了构成Web体系结构的基本元素:Web服务器、Web浏览器、浏览器与服务器之间的通信协议HTTP(HypertextTransferProtocol、超文本传输协议)、写Web文档的语言HTML(HypertextMarkupLanguage、超文本标记语言)、以及用来标识Web上资源的URL(UniversalResourceLocator、统一资源定位器)。1993年,美国伊利诺斯大学国家超级计算应用中心NCSA(NationalCenterforSupercomputingApplications)的MarcAndreesen及其合发布了称为Mosaic的浏览器,这是第一个较健壮的易用的浏览器,它具有友善的图形用户界面。从此,Web迅速成长为全球范围内的信息宝库。1994年,W3联盟在TimBerners-Lee的领导下成立,该组织通过制定技术规范与提供参考软件来发展Web的技术标准并促进Web产品之间的互操作性。URL(UniversalResourceLocator、统一资源定位器)用来唯一标识Web上的资源,包括Web页面、图象文件(如gif格式文件和jpeg格式文件)、音频文件(如au格式)、视频文件(如mpeg格式文件)。URL的格式为:协议://主机名:端口号/标识符(例如http://www.seu.edu.cn:80/index.aspl)。协议可以是HTTP、HTTPS(安全的超文本传输协议)、FTP;主机名用来标识被请求的服务器;端口通常为不同协议保留,例如FTP和HTTP守护进程侦听不同的端口,FTP缺省的端口号为21,HTTP缺省的端口号为80;标识符说明被请求的是什么,可以是文件名(含路径)或一个应用关键字(如/cgi-bin/和/servlet/)加上一些信息(如一个脚本的名字和servlet的名字)。例如,用户键入URL格式的地址(例如http://www.seu.edu.cn:80/index.aspl);浏览器请求主机www.seu.edu.cn在80端口提供的HTTP服务,并要求取得该服务器上的index.aspl文件;服务器接受请求,取得该文件;服务器把文件返回浏览器,并告诉浏览器这是一个HTML文件;浏览器在显示器上显示这个页面。在浏览器和web服务器之间使用的协议是HTTP。HTTP(HyperTextTransferProtocol、超文本传输协议)是用来在互连网上传输文档的协议,它是Web上最常用也是最重要的协议,也是Web服务器和Web客户(如浏览器)之间传输Web页面的基础。HTTP是建立在TCP/IP之上的应用协议,但并不是面向连接的,而是一种请求/应答(Request/Response)式协议。浏览器通常通过HTTP向Web服务器发送一个HTTP请求,其中包括一个方法、可能的几个头、一个体。常用的方法类型包括:GET(请求一个网页)、POST(传送一个表单中的信息)、PUT(存入这个信息、类似于FTP中的PUT)和DELETE(删除这个信息)。Web服务器接受到HTTP请求之后,执行客户所请求的服务,生成一个HTTP应答返回给客户。HTTP应答有一个状态行、可能的几个头、一个体。在头中可以定义返回文档的内容类型(MIME类型)、Cache控制、失效时间。MIME类型包括:“text/html”(HTML文本)、“image/jpeg”(JPEG图)、“audio/ra”(RealAudio文件)。HTTP本身也在不断完善和发展,目前,常用的是HTTP1.1,它更好地利用TCP的特性,对HTTP1.0作了改进。HTML(HypertextMarkupLanguage、超文本标记语言)是Web诞生与发展的要素之一,它旨在使得Web页面能显示在任何HTML使能的浏览器中,而与连网的机器平台无关。HTML并不是一个程序设计语言,而是一个标记语言,它所提供的标记是由SGML(StandardGeneralizedMarkupLanguage,标准的通用标记语言)定义的。SGML是ISO(国际标准化组织)在1986年推出的一个用来创建标记语言的语言标准,它源自IBM早在1969年开发的GML(GeneralizedMarkupLanguage),该语言的名称也正好包含了三位创始人姓字的第一个字母,他们分别是CharlesF.Goldfarb,EdwardMosher,RaymondLorie。SGML是一种元语言,即用来定义标记语言的语言,它提供了一种将数据内容与显示分离开来的数据表示方法,使得数据独立于机器平台和处理程序。这些特性促使TimBerners-Lee采用SGML来创建称之为HTML的标记语言。1993年形成HTML1.0,以后不断完善,HTML4.0发表于1997年。特别需要指出的是HTML提供的机制是Web的本质特性之一。但是,HTML的关注Web浏览器如何在页面上安排文本、图象和按钮等,过多地考虑外观使其缺乏对结构化数据的表示能力。另外,HTML中有限的标记不能满足很多Web应用的需要,如基于Web的大型出版系统和新一代的电子商务,而为各种应用需要不断地往HTML中增加标记显然不是最终的解决方法,究其原因是HTML缺乏可扩展性。解决方案应该是简化SGML使之能应用到Web上。为此,从1996年开始,W3C(WorldWideWebConsortium)的一个工作组在JonBosak的领导下致力于设计一个超越HTML能力范围的新语言,这个语言后来被命名为XML(ExtensibleMarkupLanguage,可扩展标记语言)。1998年2月,W3C发布了XML1.0作为其推荐标准。现在,W3C已经用XML设计出一个与HTML4.01功能等价的语言,称为XHTML1.0(ExtensibleHyperTextMarkupLanguage)。Web客户通常指的是Web浏览器,如NetscapeNavigator和MicrosoftInternetExplorer。这种浏览器能理解多种协议,如HTTP、HTTPS、FTP;也能理解多种文档格式,如text、HTML、JPEG(一种图象文件格式)、XML(有的尚未支持);也具备根据对象类型调用外部应用的功能。需要指出的是HTML文档中的在Web浏览器中通常以带下划线的方式显示,用户某个就能浏览到所的Web资源,这也是Web的魅力所在。Web服务器(或称HTTP服务器)提供HTTP服务。本来Web服务器只提供“静态”内容,即返回在URL里指定的文件的内容,一般具备将URL名映射到文件名的功能,并能实施某种安全策略。现在,可采用CGI(通用网关接口)技术或JavaServlet技术从一个运行的程序里得出“动态”内容,可以采用应用关键字(如/cgi-bin/和/servlet/)来组织脚本文件和Servlet文件,而且现在的Web服务器通常还具备连接hr的功能,这些形成了Web应用的出现。通常,一个Web服务器还提供其它服务,如FTP服务。有的还可作为代理服务器。一个代理服务器是一个可以从别的服务器上为它的客户取文件的服务器。代理服务器可以通过缓存应答(页面)使得响应时间更快,也可以降低网络流量,对外能隐藏内部网信息。总之,URL、HTTP、HTML(以及XML)、Web服务器和Web浏览器是构成Web的五大要素。Web的本质内涵是一个建立在Internet基础上的网络化超文本信息传递系统,而Web的外延是不断扩展的信息空间。Web的基本技术在于对Web资源的标识机制(如URL)、应用协议(如HTTP和HTTPS)、数据格式(如HTML和XML)。这些技术的发展日新月异,同时新的技术不断涌现,因此Web的发展前景不可限量