用Google搜索博客软件第一个就是WordPress, 所以就装了。但是其实很难用。比如我加了个用户,但是发表的文章之中却不显示是谁发表的哪篇文章。不知道要修改哪个文件,增加哪个函数。看了一堆网页才知道用的函数是the_author_posts_link(); 找到了个文件single.php,总算加了进去。后来又发现index.php中的the_author(),竟然被注释掉了。巨靠!
为了试验,这篇文章修改了好几次。
用Google搜索博客软件第一个就是WordPress, 所以就装了。但是其实很难用。比如我加了个用户,但是发表的文章之中却不显示是谁发表的哪篇文章。不知道要修改哪个文件,增加哪个函数。看了一堆网页才知道用的函数是the_author_posts_link(); 找到了个文件single.php,总算加了进去。后来又发现index.php中的the_author(),竟然被注释掉了。巨靠!
为了试验,这篇文章修改了好几次。
有人把web mining 分成3类:Web structure mining, Web content mining and Web usage mining. 对于国立网络运营商,可能感兴趣第一类信息。对于公司和个人,可能感兴趣第二类信息。第三类信息一般只有公司有兴趣。我们下面主要从个人角度谈谈Web content mining.
从网络收集信息是完全合法的,Google和百度之类的公司一直在做。人肉搜索这个词被提出来以后,很多人群起反对,大意是侵犯隐私权。其实,网络是没有隐私的。“若要人不知,除非己莫为。”这是古语。你自己男盗女娼,别人拍个照抓个现行还不行吗。
Facebook之类的网站流行,带来了很多的安全问题。很多网民其实是不知道他放在Facebook的信息全世界都可以阅读的。各种机构都在其中钓鱼,比如银行可能从其中获得你的信用信息,而决定给你的透支额度。这里有篇文章可以参考一下:http://www.socialtimes.com/2010/02/banks-using-social-media-sites-for-mining-personal-information/
我个人想做一个信息抽取系统。比如从网络抽取个人信息。用户给出一个或几个关键词,我的系统从网络把最相关的信息抽取出来,以友好的方式呈现给用户。不妨设想:
用户输入“萧依婷”。系统几分钟之内把她的简历做出来,而且图文并茂。简历可以简单到2页,也可以详细到1000页,包含她所有的照片。
用户输入“万科”。系统几分钟之内把万科公司的资料做出来,而且图文并茂。有关公司的注册信息、职员人数、年收入、税收、媒体曝光、客户评价、各地的工程情况一一收录,可详可略。
用户输入“王石 李嘉诚”。系统几分钟之内把这两个人的所有交往信息都以可视化的方式呈现给用户。包括采用图形、视频等方式。你可以想象几分钟之内有一个专家专门给你讲两者的关系。
这样的系统涉及的技术已经成熟,做出来完全没有问题。当然,所谓的网络信息挖掘包含的内容要比这多得多。比如公司对用户的产品评论感兴趣,称之为Opinion Mining. 政府对大众舆论感兴趣,称之为舆情分析。安全局对恐怖分子感兴趣,可从网上发现蛛丝马迹。总之这里面大有可为。
顺便说一句,即使学生作文这样的任务,也可以通过网络信息挖掘来做到。
也许某一天,你会发现这样的系统已经加到uread里面。
很久以前自己在实验室的电脑上开过一个博客,还写了不少博文。可惜被一个学生(至今不知道是谁)把硬盘C给格式化了。里面的软件、数据全部丢失。一直没有去想办法恢复。
博客的目的主要就是表达自己的观点,以便被别人看到,进而可以交流。有时候也可以记录一下事情。
在别人的网站上开博当然没有在自己的地盘上好,一切皆在自己掌握之中(真的吗?)
此为记。