我一直不喜欢新浪。打个不好的比方,就象个吵闹拥挤的集市。今天为了看韩寒的博客,发现了一个好玩的事情。大家看一下韩寒的这篇新浪博文(这里是这篇博文在20120206的一个备份,以防止新浪删除证据, 一共740868字节)。你在你的浏览器里应该只能看到并搜索到“大家都知道方舟子”的一次出现。但是你在其html源代码里面可以搜索到36次出现(注:用Chrome查看源代码和搜索其中的字符串特别方便),好玩吧?
这样做的后果是,新浪博客的页面字节数要多上很多倍!传输速度要慢很多倍!当然这种做法不是新浪的发明,一些小说网站早就这样做以给搜索引擎之类软件找点麻烦(记忆中2年前的晋江文学城就是如此做的)。这也叫数字水印?还有大网站向小网站这样看齐的。
如果我们把多余的重复删除,则可以把 740868 字节减少到 86754 字节(这是删除多余内容后的网页,内容一样!), 差不多减少9倍吧。注意这肯定不是最精简的版本。(我只是用EmEditor 把 <span class=’MASSf21674ffeef7′>.*?</span> 替换为空,注意要先设置.可匹配换行符)
你觉得是不是新浪博客有点自己搬起石头砸自己的脚呢?