是否可以只下载网页的<head>?

我写一个脚本,该脚本执行一些查询通过表单在网站上和读取结果.我只是感兴趣在< < titlesection)每个web页面.目前,每一页服务器返回大约100 kb和包含一些HTMLJavascript,所有这些我不需要;我不想浪费带宽或使用太多的服务器的资源.我只是需要<标题>字符串.有什么方法可以下载不到整个web页面?

# 回答1

雷克斯写道:你需要发出一个GET请求的HTML标题部分几乎总是意味着服务器将构建整个页面发送给你(这可以设置内容长度等).你可以节省网络流量通过解析数据到达,和停止当你得到TITLE元素:http://effbot.org/librarybook/sgmllib.htm< / F >
# 回答2

星期四,04 2008 18:53:33 -0300年9月,弗雷德里克·Lundh < fr * * * * * @pythonware.com >害怕escribii½:你需要发出一个GET请求的HTML标题部分几乎总是意味着服务器将构建整个页面发送给你(这可以设置内容长度等).你可以节省网络流量通过解析数据到达,和停止当你得到TITLE元素:http://effbot.org/librarybook/sgmllib.htm另一个方法是估计大小需要达到< titletag,并发出一个GET范围标头.服务器将-非常可能必须建立整个页面,但不会试图派遣更多比所请求的字节数.(如果请求的大小是不够的,你可以问题的另一个要求更多的数据)http://www.w3.org/Protocols/rfc2616/....html sec14.35- - -加布里埃尔Genellina

标签: python

添加新评论