日期:2024-07-26 浏览次数:382次
日期:2024-07-31 浏览次数:374次
日期:2024-07-23 浏览次数:370次
日期:2024-07-23 浏览次数:370次
日期:2024-07-23 浏览次数:371次
日期:2024-07-23 浏览次数:369次
发布时间:2018-06-01 11:52:05 人气: 来源:
VIP大讲堂微信群内有同学问:我们有一个网页3000多行中文+英文,快照显示不完整,通过站长平台模拟抓取(注:这位同学指的是href="https://ziyuan.baidu.com/crawltools/index" style="cursor: pointer; text-decoration-line: none; color: rgb(63, 130, 252); font-family: tahoma, PingFangSC, "microsoft yahei ui", "microsoft yahei", sans-serif; text-indent: 32px; white-space: normal; background-color: rgb(255, 255, 255);">抓取诊断工具),文字也显示不完整,对网站影响会不会很大?院长把这个笼统的问题拆成了小问题,并向工程师进行了确认。
**个问题:百度对网页内容多少大小有限制吗?
答:对内容文字多少没有限制,但源码大小上有一定的限制,过长的话,会取前面一部分,所以,源码还是越简洁越好
第二个问题:如果快照显示网页不完整,是不是说明BAIduSpider没有完整收录网页?
答:不是的,快照的成生涉及很多环节,显示不完整的原因会很多,不能简单地认为没有收录完整。
第三个问题:使用平台抓取断工具也不能完整显示,是不是就可以认为没有收录完整了?
答:不是的,工具只展示前200K。我们设计工具的时候对网页做过调研,一般来说展示前100K就够用了。
第四个问题:百度是否要求网页上不能有什么特殊字符?
答:没有这个限制。
电话:15002687135(兰州) 188 9314 9945(西宁)
兰州地址:兰州市七里河区西站十字银信大厦1302室
西宁地址:兰州市七里河区西站十字银信大厦1302室