快收工的时候刷了下微博看到了有人很无聊地去统计了汪峰老师(没有黑他的意思,其实人家音乐还是很有力量的好吧)歌词的词频率。于是我想这得多有(wu)趣(liao)啊,于是就决定自己也统计下。于是的于是,我放弃了看TBBT的时间来给统计下汪峰老师的歌词。
要想统计就得有歌词啊,一个个找也不是懒人的风格,于是想到了虾米上是有歌词的,去抓下来就好了嘛,其实也很简单,把网页抓下来解析一下。以前这活都是给Pyhon干的,今天想想用R尝试下吧。R解析HTML应该可以用XML包,但是因为以前都是使用Python来解析HTML,所有XML包压根就没有用过,于是决定自己写正则表达式来完成吧。
抓取歌词
汪峰在虾米上的ID是887,使用http://www.xiami.com/artist/album/id/887/d//p//page/1
的网址可以直接查看其专辑。
我们首先获得其专辑的信息,这里主要是名字和专辑的链接。
以上获得了专辑的名字和专辑的链接地址,接下来要做的就是去这个专辑中找到这些歌曲然后找到这些歌曲的歌词就可以了。
分词
接下来就是统计词频率了,分词使用分词包Rwordseg。
结果
结果是基本上就是下面这样的
最后肯定要总结下,要不然就文不对题了。
- 其实汪峰歌还是很好的,就算不是Music King,可人家在章子怡心中就是King啊。
- 章子怡很漂亮的,我基本不黑漂亮的女孩。
- 那些把Music King翻译成“音帝”的人,你东西掉了……
嗯,差不多就这样。PS:这代码的显示太差劲了,等这个周末以后得把版面改改了。