读《推荐系统实践》
利用用户标签数据
标签是一种无层次化结构的、用来描述信息的关键词,它可以用来描述物品的语义。
根据给物品打标签的人的不同,标签应用一般分为两种:一种是让作者或者专
家给物品打标签;另一种是让普通用户给物品打标签,也就是UGC(User Generated Content,用
户生成的内容)的标签应用。
Scott A. Golder 总结了 Delicious 上的标签,将它们分为如下几类。
表明物品是什么 比如是一只鸟,就会有 “ 鸟”这个词的标签;是豆瓣的首页,就有一个
标签叫“豆瓣”;是乔布斯的首页,就会有个标签叫“乔布斯”。
表明物品的种类 比如在 Delicious 的书签中,表示一个网页类别的标签包括 article (文章)
、
blog (博客)
、 book (图书)等。
表明谁拥有物品 比如很多博客的标签中会包括博客的作者等信息。
表达用户的观点 比如用户认为网页很有趣,就会打上标签 funny (有趣)
,认为很无聊,
就会打上标签 boring (无聊)
。
用户相关的标签 比如 my favorite (我最喜欢的)
、 my comment (我的评论)等。
用户的任务 比如 to read (即将阅读)
、 job search (找工作)等。