18.HTTP协议介绍和学习-摩杜云开发者社区

html

Hyper Text Markup Language 超文本标记语言，编程语言，主要负责实现页面的结构范例：html 语言

<html>
<head>
<meta http-equiv=Content-Type content="text/html;charset=utf-8">
<title>HTML语言</title>
</head>
<body>
<img src="http://www.magedu.com/wp-content/uploads/2017/09/logo.png" >
<h1 style="color:red">欢迎</h1>
<p><a href=http://www.magedu.com>啦啦啦</a>欢迎你</p>
</body>
</html>
#注意:html文件编码为utf-8编码

CSS

Cascading Style Sheet 层叠样式表，定义了如何显示（装扮） HTML 元素，比如：字体大小和颜色属性等。样式通常保存在外部的 .css 文件中,用于存放一些HTML文件的公共属性,从而通过仅编辑一个简单的 CSS 文档，可以同时改变站点中所有页面的布局和外观。

范例：CSS

#test.html 建议用Vscode创建文件,用记事本可能会出现乱码
<html>
<head>
<meta http-equiv=Content-Type content="text/html;charset=utf-8">
<link rel="stylesheet" type="text/css" href="mystyle.css" />
</head>
<body>
<h1>这是 heading 1</h1>
<p>这是一段普通的段落。请注意，该段落的文本是红色的。在 body 选择器中定义了本页面中的默认文本颜色。</p>
<p class="ex">该段落定义了 class="ex"。该段落中的文本是蓝色的。</p>
</body>
</html>
#mystyle.css
body {color:red}
h1 {color:#00ff00}
p.ex {color:rgb(0,0,255)}

javascript，实现网页的动画效果，但实属于静态资源

Java和javascript的关系: 周杰和周杰伦的关系(N50牛康康语录)

范例：javascript

<!DOCTYPE html>
<html>
<head>
<meta http-equiv=Content-Type content="text/html;charset=utf-8">
</head>
<body>
<h2>我的第一个 JavaScript</h2>
<button type="button"
onclick="document.getElementById('demo').innerHTML = Date()">
点击这里来显示日期和时间
</button>
<p id="demo"></p>
</body>
</html>

MIME

MIME : Multipurpose Internet Mail Extensions 多用途互联网邮件扩展

文件 /etc/mime.types ,来自于mailcap包

MIME格式：type/subtype txt html jpg bmp

范例：

text/plain   txt asc text pm el c h cc hh cxx hxx f90 conf log
text/html     html htm
text/css 
image/jpeg   jpg jpeg
image/png 
video/mp4 
application/javascript

SMTP 25/tcp

HTTP 80/tcp

HTML包含各种资源：各种文件

静态：服务器端的文件内容和客户端的文件内容是相同的

动态：服务器端的文件内容和客户端的文件内容是不相同的，服务端的页面文件通常是程序，将此程序执行得到结果，封装成HTML页面文件到发送给客户端

PHP,ASP,JSP,Python,GO

HTTP：HTML 文本，

MIME：

SMTP：文本，其它文件格式

URI和URL

参考链接

ttps://developer.mozilla.org/zh-CN/docs/Web/HTTP/Basics_of_HTTP/Identifying_resources_on_the_Web

URI： Uniform Resource Identifier 统一资源标识，分为URL 和 URN

URN：Uniform Resource Naming，统一资源命名

示例： P2P下载使用的磁力链接是URN的一种实现

magnet:?xt=urn:btih:1E45C21458681BFECBEB72D77A2500762D6F799F

URL：Uniform Resorce Locator，统一资源定位符，用于描述某服务器某特定资源位置

两者区别：URN如同一个人的名称，而URL代表一个人的住址。换言之，URN定义某事物的身份，而 URL提供查找该事物的方法。URN仅用于命名，而不指定地址

URL组成

<scheme>://<user>:<password>@<host>:<port>/<path>;<params>?<query>#<frag>

scheme:方案，访问服务器以获取资源时要使用哪种协议
user:用户，某些方案访问资源时需要的用户名
password:密码，用户对应的密码，中间用：分隔
Host:主机，资源宿主服务器的主机名或IP地址
port:端口,资源宿主服务器正在监听的端口号，很多方案有默认端口号
path:路径,服务器资源的本地名，由一个/将其与前面的URL组件分隔
params:参数，指定输入的参数，参数为名/值对，多个参数，用;分隔
query:查询，传递参数给程序，如数据库，用？分隔,多个查询用&分隔
frag:片段,一小片或一部分资源的名字，此组件在客户端使用，用#分隔

URL示例

http://www.magedu.com:8080/images/logo.jpg
ftp://mage:password@172.16.0.1/pub/linux.ppt
rtsp://videoserver/video_demo/ #Real Time Streaming Protocol
gcomm://10.0.0.8,10.0.0.18,10.0.0.28 
http://www.magedu.com/bbs/hello;gender=f/send;type=title
https://list.jd.com/list.html?
cat=670,671,672&ev=14_2&sort=sort_totalsales15_desc&trans=1
http://apache.org/index.html#projects-list

网站访问量

网站访问量统计的重要指标

IP(独立IP)：即Internet Protocol,指独立IP数。一天内来自相同客户机IP 地址只计算一次，记录远程客户机IP地址的计算机访问网站的次数，是衡量网站流量的重要指标
PV(访问量)：即Page View, 页面浏览量或点击量，用户每次刷新即被计算一次，PV反映的是浏览某网站的页面数，PV与来访者的数量成正比，PV并不是页面的来访者数量，而是网站被访问的页面数量
UV(独立访客)：即Unique Visitor,访问网站的一台电脑为一个访客。一天内相同的客户端只被计算一次。可以理解成访问某网站的电脑的数量。网站判断来访电脑的身份是通过cookies实现的。如果更换了IP后但不清除cookies，再访问相同网站，该网站的统计中UV数是不变的

网站统计：http://www.alexa.cn/rank/

范例：网站访问统计

1. 甲乙丙三人在同一台通过 ADSL 上网的电脑上（中间没有断网），分别访问 www.magedu.com 网站，
并且每人共用一个浏览器，各个浏览了2个页面，那么网站的流量统计是：
IP: 1 PV:6   UV：1
2. 若三人都是ADSL重新拨号后,各个使用不同的浏览器，分别浏览了2个页面，则
IP: 3 PV:6 UV：3

网站访问量 PV,IP,UV统计方法

使用文本工具, 比如awk提取IP，sort排序、uniq统计去重后统计IP数
第三方统计工具进行pv统计，比如: 百度统计、腾讯分析、piwik、开发自研统计平台。

HTTP工作机制

一次http事务包括：

http请求：http request
http响应：http response

Web资源：web resource，一个网页由多个资源（文件）构成，打开一个页面，通常会有多个资源展示出来，但是每个资源都要单独请求。因此，一个"Web 页面”通常并不是单个资源，而是一组资源的集合

资源类型：

静态文件：无需服务端做出额外处理,服务器端和客户端的文件内容相同常见文件后缀：.html, .txt, .jpg, .js, .css, .mp3, .avi
动态文件：服务端执行程序，返回执行的结果,服务器端和客户端的文件内容不相同常见文件后缀：.php, .jsp ,.asp

提高HTTP连接性能

并行连接：通过多条TCP连接发起并发的HTTP请求
持久连接：keep-alive，重用TCP连接，以消除连接和关闭的时延,以事务个数和时间来决定是否关闭连接
管道化连接：通过共享TCP连接，发起并发的多个HTTP请求,但需要也要按发起请求的顺序来接收响应,实现难度很大,很多代理服务器和浏览器不支持
复用的连接：交替传送请求和响应报文（实验阶段）

HTTP 请求访问的完整过程

一次完整的http请求处理过程

1、建立连接：接收或拒绝连接请求

2、接收请求：接收客户端请求报文中对某资源的一次请求的过程

Web访问响应模型（Web I/O）

![](D:\Typora\Typora\locales\屏幕截图 2022-11-26 164442.png)

单进程I/O模型：启动一个进程处理用户请求，而且一次只处理一个，多个请求被串行响应
多进程I/O模型：并行启动多个进程,每个进程响应一个连接请求
复用I/O结构：启动一个进程，同时响应N个连接请求
复用的多进程I/O模型：启动M个进程，每个进程响应N个连接请求，同时接收M*N个请求

3、处理请求：服务器对请求报文进行解析，并获取请求的资源及请求方法等相关信息，根据方法，资源，首部和可选的主体部分对请求进行处理常用请求Method: GET、POST、HEAD、PUT、DELETE、TRACE、OPTIONS

4、访问资源：服务器获取请求报文中请求的资源web服务器，即存放了web资源的服务器，负责向请求者提供对方请求的静态资源，或动态运行后生成的资源

5、构建响应报文：一旦Web服务器识别除了资源，就执行请求方法中描述的动作，并返回响应报文。响应报文中包含有响应状态码、响应首部，如果生成了响应主体的话，还包括响应主体 1）响应实体：如果事务处理产生了响应主体，就将内容放在响应报文中回送过去。响应报文中通常包括：描述了响应主体MIME类型的Content-Type首部描述了响应主体长度的Content-Length 实际报文的主体内容 2）URL重定向：web服务构建的响应并非客户端请求的资源，而是资源另外一个访问路径 3）MIME类型： Web服务器要负责确定响应主体的MIME类型。多种配置服务器的方法可将MIME类型与资源管理起来

6、发送响应报文

Web服务器通过连接发送数据时也会面临与接收数据一样的问题。服务器可能有很多条到各个客户端的连接，有些是空闲的，有些在向服务器发送数据，还有一些在向客户端回送响应数据。服务器要记录连接的状态，还要特别注意对持久连接的处理。对非持久连接而言，服务器应该在发送了整条报文之后，关闭自己这一端的连接。对持久连接来说，连接可能仍保持打开状态，在这种情况下，服务器要正确地计算Content-Length首部，不然客户端就无法知道响应什么时候结束

7、记录日志

最后，当事务结束时，Web服务器会在日志文件中添加一个条目，来描述已执行的事务

HTTP 协议报文头部结构

http协议：http/0.9, http/1.0, http/1.1, http/2.0，http/3.0

http协议：stateless 无状态, 服务器无法持续追踪访问者来源

解决http协议无状态方法

cookie 客户端存放
session 服务端存放

http事务：一次访问的过程

请求：request
响应：response

HTTP报文结构

协议查看或分析的工具：tcpdump, wireshark,tshark

参考资料：https://developer.mozilla.org/zh-CN/docs/Web/HTTP

HTTP 请求报文

request报文格式

<method> <request-URL> <version>
<headers>
<entity-body>

HTTP响应报文

response报文格式

<version> <status> <reason-phrase>
<headers>
<entity-body>

HTTP报文格式详解

Method 方法

请求方法，标明客户端希望服务器对资源执行的动作，包括以下：
GET： 从服务器获取一个资源
HEAD： 只从服务器获取文档的响应首部
POST： 向服务器输入数据，通常会再由网关程序继续处理
PUT： 将请求的主体部分存储在服务器中，如上传文件
DELETE： 请求删除服务器上指定的文档
TRACE：追踪请求到达服务器中间经过的代理服务器
OPTIONS：请求服务器返回对指定资源支持使用的请求方法
CONNECT：建立一个到由目标资源标识的服务器的隧道
PATCH：用于对资源应用部分修改

http协议状态码分类

1xx：100-101 信息提示
2xx：200-206 成功
3xx：300-307 重定向
4xx：400-415 错误类信息，客户端错误
5xx：500-505 错误类信息，服务器端错误

http协议常用的状态码

200： 成功，请求数据通过响应报文的entity-body部分发送;OK
301： Moved Permanently,请求的URL指向的资源已经被删除；但在响应报文中通过首部Location指明了资源现在所处的新位置
302： Moved Temporarily,响应报文Location指明资源临时新位置
304： 客户端发出了条件式请求，但服务器上的资源未曾发生改变，则通过响应此响应状态码通知客户端；
Not Modified,但无需再发送原始数据即实体给客户端
307: 浏览器内部重定向，而无需再向服务器发送请求
401： 需要输入账号和密码认证方能访问资源；Unauthorized
403： 请求被禁止；Forbidden,一般是因为权限错误或主页文件不存在
404： 服务器无法找到客户端请求的资源；Not Found
413： 上传的资源超过了最大限制值
499： 客户端主动断开连接。然而在实际业务开发中，当出现 HTTP 499 状态码时，大部分都是由于服务端请求时间过长，导致客户端等的“不耐烦”了，因此断开了连接。比如：慢SQL问题，499是客户端读超时关闭连接造成的，推荐从超时时间或者优化响应速度入手,web服务器发现客户端主动关闭连接后，记录到access日志中的。可能是客户端接收响应超时了,可以先在客户端统计下是不是这个原因，再调查为什么导致超时
500： 服务器内部错误；Internal Server Error,比如:cgi程序没有执行权限,或连接数据库失败,rewrite死循环
502： Bad Gateway,代理服务器从后端服务器收到了一条错误响应，如无法连接到网关；Bad Gateway,比如:后端服务端口没有打开,或后端服务不可用,iptable -j REJECT
503： 服务不可用，临时服务器维护或过载，服务器无法处理请求,比如:超过连接数和连接频率
504： Gateway Timeout,网关超时,或者后端服务器无回应报文,比如:服务端口虽然打开,但服务返回结果时间过长,iptable -j DROP

reason-phrase原因短语

状态码所标记的状态的简要描述

Cookie 和 Session

cookie 的获取过程

#第一次请求过程
浏览器第一次发送请求时,不会携带任何cookie信息
服务器接收到请求之后，发现请求中没有任何cookie信息
服务器生成和设置一个cookie.并将此cookie设置通过set_cookie的首部字段保存在响应报文中返回给浏
览器
浏览器接收到这个响应报文之后,发现里面有cookie信息,浏览器会将cookie信息保存起来
#第二次及其之后的过程
当浏览器第二次及其之后的请求报文中自动 cookie的首部字段携带第一次响应报文中获取的cookie信息
服务器再次接收到请求之后,会发现请求中携带的cookie信息,这样的话就认识是谁发的请求了
之后的响应报文中不会再添加set_cookie首部字段

Cookie主要用于以下三个方面：

会话状态管理（如用户登录状态、购物车、游戏分数或其它需要记录的信息）
个性化设置（如用户自定义设置、主题等）
浏览器行为跟踪（如跟踪分析用户行为等）

浏览器对cookie的限制：

Cookie 存储的限制是不一样的。例如：单个域名可存储的 Cookie 数量、Cookie 大小等。

在进行页面 Cookie 操作的时候，应该尽量保证 Cookie 的个数小于 20 个，总大小小于 4KB，这是一个安全且保险的范围。

范例：响应报文中的set-cookie首部

HTTP/1.0 200 OK
Content-type: text/html
Set-Cookie: yummy_cookie=choco
Set-Cookie: tasty_cookie=strawberry

范例：请求报文中的cookie首部字段

GET /sample_page.html HTTP/1.1
Host: www.example.org
Cookie: yummy_cookie=choco; tasty_cookie=strawberry

范例：php语言实现cookie的管理

#设置cookie
#cat setcookie.php 
<?php
setcookie('title','cto');    #有效期为会话级
setcookie('user','wang',time()+3600*12);  #有效期为12小时
echo "<h1>test setcookie </h1>"
?>
#说明：setcookie设置的cookie，只有下一次http请求才能生效

#显示cookie
cat showcookies.php
<?php
echo "<h1>test showcookie </h1>";
echo $_COOKIE["user"];    #显示user的这一个cookie
echo "<br />";
var_dump($_COOKIE);      #显示所有cookie 
//print_r($_COOKIE);     #不如上面方式详细
?>
#删除cookie，通过设置过期时间实现
#vim delcookie.php
<?php
setcookie('user','wang',time()-3600*12);
echo "<h1>cookie:user is deleted </h1>";
?>

Session

![](D:\Typora\Typora\locales\屏幕截图 2022-11-26 185026.png)

session 的工作流

第一次请求:
浏览器发起第一次请求的时候可以携带一些信息(比如: 用户名/密码) cookie中没有任何信息
当服务器接收到这个请求之后,进行用户名和密码的验证,验证成功后则可以设置session信息
在设置session信息的同时(session信息保存在服务器端) .服务器会在响应头中设置一个随机的
session id的cookie信息
客户端(浏览器)在接收到响应之后,会将cookie信息保存起来(保存session id的信息)

第二次及其之后的请求:
第二次及其之后的请求都会携带session id信息
当服务器接收到这个请求之后,会获取到session id信息,然后进行验证
验证成功,则可以获取session信息(session信息保存在服务器端)

范例：PHP的PHPSESSID

<?php
session_start(); 
echo session_id();
?>
#执行结果如下图

![](D:\Typora\Typora\locales\屏幕截图 2022-11-26 185236.png)

cookie和session比较

cookie和session的相同和不同：

cookie通常是在服务器生成,但也可以在客户端生成,session是在服务器端生成的
session 将数据信息保存在服务器端，可以是内存，文件，数据库等多种形式,cookie 将数据保存在客户端的内存或文件中
单个cookie保存的数据不能超过4K，每个站点cookie个数有限制，比如IE8为50个、Firefox为50 个、Opera为30个；session存储在服务器，没有容量限制
cookie存放在用户本地，可以被轻松访问和修改，安全性不高；session存储于服务器，比较安全
cookie有会话cookie和持久cookie，生命周期为浏览器会话期的会话cookie保存在缓存，关闭浏览器窗口就消失，持久cookie被保存在硬盘，知道超过设定的过期时间；随着服务端session存储压力增大，会根据需要定期清理session数据
session中有众多数据，只将sessionID这一项可以通过cookie发送至客户端进行保留，客户端下次访问时，在请求报文中的cookie会自动携带sessionID，从而和服务器上的的session进行关联

cookie缺点：

1、使用cookie来传递信息，随着cookie个数的增多和访问量的增加，它占用的网络带宽也很大，试想假如cookie占用200字节，如果一天的PV有几个亿，那么它要占用多少带宽？

2、cookie并不安全，因为cookie是存放在客户端的，所以这些cookie可以被访问到，设置可以通过插件添加、修改cookie。所以从这个角度来说，我们要使用sesssion，session是将数据保存在服务端的，只是通过cookie传递一个sessionId而已，所以session更适合存储用户隐私和重要的数据

session 缺点：

1、不容易在多台服务器之间共享，可以使用session绑定，session复制，session共享解决 2、session存放在服务器中，所以session如果太多会非常消耗服务器的性能 cookie和session各有优缺点，在大型互联网系统中，单独使用cookie和session都是不可行的

Web 相关工具

links

links [OPTION]... [URL]...

常用选项：

-dump 非交互式模式，显示输出结果
-source 打印源码

wget

wget [OPTION]... [URL]...

常用选项：

#启动
-V, -version 显示wget的版本后退出
-h, -help 打印语法帮助
-b, -background 启动后转入后台执行
-e, -execute=COMMAND 执行`.wgetrc'格式的命令，wgetrc格式参见/etc/wgetrc或~/.wgetrc
#记录和输入文件
-o, -output-file=FILE 把记录写到FILE文件中
-a, -append-output=FILE 把记录追加到FILE文件中
-d, -debug 打印调试输出
-q, -quiet 安静模式(没有输出)
-v, -verbose 冗长模式(这是缺省设置)
-nv, -non-verbose 关掉冗长模式，但不是安静模式
-i, -input-file=FILE 下载在FILE文件中出现的URLs
-F, -force-html 把输入文件当作HTML格式文件对待
-B, -base=URL 将URL作为在-F -i参数指定的文件中出现的相对链接的前缀
-sslcertfile=FILE 可选客户端证书
-sslcertkey=KEYFILE 可选客户端证书的KEYFILE
-egd-file=FILE 指定EGD socket的文件名

#下载
-bind-address=ADDRESS
指定本地使用地址(主机名或IP，当本地有多个IP或名字时使用)
-t, -tries=NUMBER 设定最大尝试链接次数(0 表示无限制).
-O -output-document=FILE 把文档写到FILE文件中
-nc, -no-clobber 不要覆盖存在的文件或使用.#前缀
-c, -continue 接着下载没下载完的文件
-progress=TYPE 设定进程条标记
-N, -timestamping 不要重新下载文件除非比本地文件新
-S, -server-response 打印服务器的回应
-spider 不下载任何东西
-T, -timeout=SECONDS 设定响应超时的秒数
-w, -wait=SECONDS 两次尝试之间间隔SECONDS秒
-waitretry=SECONDS 在重新链接之间等待1…SECONDS秒
-random-wait 在下载之间等待0…2*WAIT秒
-Y, -proxy=on/off 打开或关闭代理
-Q, -quota=NUMBER 设置下载的容量限制
-limit-rate=RATE 限定下载输率

#目录
-nd -no-directories 不创建目录
-x, -force-directories 强制创建目录
-nH, -no-host-directories 不创建主机目录
-P, -directory-prefix=PREFIX 将文件保存到目录 PREFIX/…
-cut-dirs=NUMBER 忽略 NUMBER层远程目录

#HTTP 选项
-http-user=USER 设定HTTP用户名为 USER.
-http-passwd=PASS 设定http密码为 PASS.
-C, -cache=on/off 允许/不允许服务器端的数据缓存 (一般情况下允许).
-E, -html-extension 将所有text/html文档以.html扩展名保存
-ignore-length 忽略 `Content-Length'头域
-header=STRING 在headers中插入字符串 STRING
-proxy-user=USER 设定代理的用户名为 USER
-proxy-passwd=PASS 设定代理的密码为 PASS
-referer=URL 在HTTP请求中包含 `Referer: URL'头
-s, -save-headers 保存HTTP头到文件
-U, -user-agent=AGENT 设定代理的名称为 AGENT而不是 Wget/VERSION.
-no-http-keep-alive 关闭 HTTP活动链接 (永远链接).
-cookies=off 不使用 cookies.
-load-cookies=FILE 在开始会话前从文件 FILE中加载cookie
-save-cookies=FILE 在会话结束后将 cookies保存到 FILE文件中

#FTP 选项
-nr, -dont-remove-listing 不移走 `.listing'文件
-g, -glob=on/off 打开或关闭文件名的 globbing机制
-passive-ftp 使用被动传输模式 (缺省值).
-active-ftp 使用主动传输模式
-retr-symlinks 在递归的时候，将链接指向文件(而不是目录)

#递归下载
-r, -recursive 递归下载－－慎用!
-l, -level=NUMBER 最大递归深度 (inf 或 0 代表无穷).
-delete-after 在现在完毕后局部删除文件
-k, -convert-links 转换非相对链接为相对链接
-K, -backup-converted 在转换文件X之前，将之备份为 X.orig
-m, -mirror 等价于 -r -N -l inf -nr.
-p, -page-requisites 下载显示HTML文件的所有图片

#递归下载中的包含和不包含(accept/reject)
-A, -accept=LIST 分号分隔的被接受扩展名的列表
-R, -reject=LIST 分号分隔的不被接受的扩展名的列表
-D, -domains=LIST 分号分隔的被接受域的列表
-exclude-domains=LIST 分号分隔的不被接受的域的列表
-follow-ftp 跟踪HTML文档中的FTP链接
-follow-tags=LIST 分号分隔的被跟踪的HTML标签的列表
-G, -ignore-tags=LIST 分号分隔的被忽略的HTML标签的列表
-H, -span-hosts 当递归时转到外部主机
-L, -relative 仅仅跟踪相对链接
-I, -include-directories=LIST 允许目录的列表
-X, -exclude-directories=LIST 不被包含目录的列表
-np, -no-parent 不要追溯到父目录

常用选项:

-q 静默模式
-c 断点续传
-P /path 保存在指定目录
-O filename 保存为指定文件名，filename 为 - 时，发送至标准输出
--limit-rate= 指定传输速率，单位K，M等

范例：

[root@centos8 ~]#wget --limit-rate 1M -P /data 
https://mirrors.aliyun.com/centos/8/isos/x86_64/CentOS-8-x86_64-1905-dvd1.iso
--2019-12-12 13:02:18-- https://mirrors.aliyun.com/centos/8/isos/x86_64/CentOS8-x86_64-1905-dvd1.iso
Resolving mirrors.aliyun.com (mirrors.aliyun.com)... 27.221.92.112, 
119.167.168.225, 61.240.128.248, ...
Connecting to mirrors.aliyun.com (mirrors.aliyun.com)|27.221.92.112|:443... 
connected.
HTTP request sent, awaiting response... 200 OK
Length: 7135559680 (6.6G) [application/octet-stream]
Saving to: ‘/data/CentOS-8-x86_64-1905-dvd1.iso’
CentOS-8-x86_64-1905-dvd1.iso              100%
[===============================================================================
=========>]   6.65G  1.04MB/s    in 1h 53m  
2019-12-12 14:55:45 (1024 KB/s) - ‘/data/CentOS-8-x86_64-1905-dvd1.iso’ saved 
[7135559680/7135559680]
[root@centos8 ~]#ls /data
CentOS-8-x86_64-1905-dvd1.iso

范例：实现浏览器功能

[root@centos8 ~]#wget -qO - http://10.0.0.6/
<h1>welcome to magedu</1>

范例: 下载指定目录

[root@centos8 ~]#wget -r -np -nH -R index.html http://www.example.com/dir/
[root@centos8 ~]#wget -c -r -np -k -L -p http://www.example.com/dir/
-r : 遍历所有子目录
-np : 不到上一层子目录去
-nH : 不要将文件保存到主机名文件夹
-R index.html : 不下载 index.html 文件

curl

curl是基于URL语法在命令行方式下工作的文件传输工具，它支持FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, FILE及LDAP等协议。curl支持HTTPS认证，并且支持HTTP的POST、PUT等方法， FTP上传， kerberos认证，HTTP上传，代理服务器，cookies，用户名/密码认证，下载文件断点续传，上载文件断点续传, http代理服务器管道（ proxy tunneling），还支持IPv6，socks5代理服务器，通过http 代理服务器上传文件到FTP服务器等，功能十分强大

curl [options] [URL...]

常见选项：

-A/--user-agent <string> 设置用户代理发送给服务器
-e/--referer <URL> 来源网址
--cacert <file> CA证书 (SSL)
-k/--insecure   允许忽略证书进行 SSL 连接
--compressed 要求返回是压缩的格式
-H/--header "key:value” 自定义首部字段传递给服务器
-i 显示页面内容，包括报文首部信息
-I/--head 只显示响应报文首部信息
-D/--dump-header <file>将url的header信息存放在指定文件中
--basic 使用HTTP基本认证
-u/--user <user[:password]>设置服务器的用户和密码
-L   如果有3xx响应码，重新发请求到新位置
-O 使用URL中默认的文件名保存文件到本地
-o <file> 将网络文件保存为指定的文件中
--limit-rate <rate> 设置传输速度
-0/--http1.0 数字0，使用HTTP 1.0
-v/--verbose 更详细
-C 选项可对文件使用断点续传功能
-c/--cookie-jar <file name> 将url中cookie存放在指定文件中
-x/--proxy <proxyhost[:port]> 指定代理服务器地址
-X/--request <command> 向服务器发送指定请求方法
-U/--proxy-user <user:password> 代理服务器用户和密码
-T 选项可将指定的本地文件上传到FTP服务器上
--data/-d 方式指定使用POST方式传递数据
-s --silent   Silent mode
-b name=data 从服务器响应set-cookie得到值，返回给服务器
-w <format> 显示相应的指定的报文信息，如：%{http_code}，%{remote_ip}等
-m, --max-time <time> 允许最大传输时间

范例：

[root@centos8 ~]#curl -I http://www.163.com
HTTP/1.1 403 Forbidden
Date: Thu, 12 Dec 2019 01:18:11 GMT
Content-Type: text/html
Content-Length: 234
Connection: keep-alive
Server: web cache
Expires: Thu, 12 Dec 2019 01:18:11 GMT
X-Ser: BC14_lt-tianjin-tianjin-3-cache-3
Cache-Control: no-cache,no-store,private
cdn-user-ip: 123.118.223.243
cdn-ip: 125.39.21.14
X-Cache-Remote: HIT
cdn-source: baishan
[root@centos8 ~]#curl -I -A ie10 http://www.163.com
HTTP/1.1 200 OK
Date: Thu, 12 Dec 2019 01:19:30 GMT
Content-Type: text/html; charset=GBK
Connection: keep-alive
Expires: Thu, 12 Dec 2019 01:20:45 GMT
Server: nginx
Cache-Control: no-cache,no-store,private
Age: 5
Vary: Accept-Encoding
X-Ser: BC20_dx-lt-yd-fujian-xiamen-8-cache-2, BC57_dx-lt-yd-fujian-xiamen-8-
cache-2, BC5_lt-tianjin-tianjin-3-cache-3, BC13_lt-tianjin-tianjin-3-cache-3
cdn-user-ip: 123.118.223.243
cdn-ip: 125.39.21.13
X-Cache-Remote: HIT
cdn-source: baishan
[root@centos6 ~]#curl -H "user-agent: firefox" 192.168.100.8

范例: 判断网站正常

[root@centos8 ~]#if [ "$(curl -sL -w '%{http_code}' http://www.wangxiaochun.com -
o /dev/null)" = "200" ]; then
    echo "Success"
else
    echo "Fail"
fi
[root@centos8 ~]#if curl -sL --fail http://www.wangxiaochun.com -o /dev/null; 
then
    echo "Success"
else
    echo "Fail"
fi

范例：利用curl 获取响应码和远程主机IP

[root@ubuntu ~]#curl -s -I -m10 -o /dev/null   -w %{http_code} 
http://www.baidu.com/
200
[root@ubuntu ~]#curl -s -I -m10 -o /dev/null   -w %{remote_ip} 
http://wangxiaochun.com/
58.87.87.99
[root@centos8 ~]#curl -s -I -m10 -o /dev/null -w %{local_ip} 
http://wangxiaochun.com/
10.0.0.8
[root@centos8 ~]#curl -s -I -m10 -o /dev/null -w %{local_port} 
http://wangxiaochun.com/
45304
[root@centos8 ~]#curl -s -I -m10 -o /dev/null -w %{remote_port} 
http://wangxiaochun.com/
80

httpie

HTTPie 工具是功能丰富的 HTTP 命令行客户端，它能通过命令行界面与 Web 服务进行交互。它提供一个简单的 http 命令，允许使用简单而自然的语法发送任意的 HTTP 请求，并会显示彩色的输出

安装：基于EPEL

[root@centos8 ~]#yum install httpie -y

# 显示信息（包含响应头200）
http www.magedu.com
# 显示详细的请求（包含请求和返回头200）
http -v www.magedu.com
# 只显示Header
http -h www.magedu.com
http --head www.magedu.com
http --header www.magedu.com
http --headers www.magedu.com
# 只显示Body
http -b www.magedu.com
http --body magedu.com
# 下载文件
http -d www.magedu.com
# 模拟提交表单
http -f POST www.magedu.com username='wang'
# 请求删除的方法
http DELETE www.magedu.com
# 传递JSON数据请求(默认就是JSON数据请求)
http PUT www.magedu.com username='wang' password='magedu'
# 如果JSON数据存在不是字符串则用:=分隔，例如
http PUT www.magedu.com username='wang' password='magedu' age:=30 a:=true
streets:='["a", "b"]'
# 模拟Form的Post请求, Content-Type: application/x-www-form-urlencoded; 
charset=utf-8
http --form POST www.magedu.com username='wang'
# 模拟Form的上传, Content-Type: multipart/form-data
http -f POST www.magedu.com/jobs username='wang' file@~/test.pdf
# 修改请求头, 使用:分隔
http www.magedu.com User-Agent:magedu-agent/1.0  'Cookie:a=b;b=c' 
Referer:http://www.google.com/
# 认证
http -a username:password www.magedu.com
http -A basic -a username:password www.magedu.com
# 使用http代理
http --proxy=http:http://172.16.0.100:8081 proxy.magedu.com
http --proxy=http:http://user:pass@172.16.0.100:8081 proxy.magedu.com
http --proxy=https:http://172.16.0.100:8118 proxy.magedu.com
http --proxy=https:http://user:pass@172.16.0.100:8118 proxy.magedu.com

压力测试工具

httpd的压力测试工具：

ab, webbench, http_load, seige
Jmeter 开源
Loadrunner 商业，有相关认证
tcpcopy：网易，复制生产环境中的真实请求，并将之保存

ab 来自httpd-tools包

ab [OPTIONS] URL

常见选项：

-n：总请求数
-c：模拟的并发数
-k：以持久连接模式测试

每次I/O，都要经由两个阶段：
第一步：将数据从文件先加载至内核内存空间（缓冲区），等待数据准备完成，时间较长
第二步：将数据从内核缓冲区复制到用户空间的进程的内存中，时间较短

今天的分享就到这里，谢谢各位观摩！