读《推荐系统实践》

利用用户标签数据

标签是一种无层次化结构的、用来描述信息的关键词,它可以用来描述物品的语义。

根据给物品打标签的人的不同,标签应用一般分为两种:一种是让作者或者专
家给物品打标签;另一种是让普通用户给物品打标签,也就是UGC(User Generated Content,用
户生成的内容)的标签应用。

Scott A. Golder 总结了 Delicious 上的标签,将它们分为如下几类。
 表明物品是什么 比如是一只鸟,就会有 “ 鸟”这个词的标签;是豆瓣的首页,就有一个
标签叫“豆瓣”;是乔布斯的首页,就会有个标签叫“乔布斯”。
 表明物品的种类 比如在 Delicious 的书签中,表示一个网页类别的标签包括 article (文章)

blog (博客)
、 book (图书)等。
 表明谁拥有物品 比如很多博客的标签中会包括博客的作者等信息。
 表达用户的观点 比如用户认为网页很有趣,就会打上标签 funny (有趣)
,认为很无聊,
就会打上标签 boring (无聊)

 用户相关的标签 比如 my favorite (我最喜欢的)
、 my comment (我的评论)等。
 用户的任务 比如 to read (即将阅读)
、 job search (找工作)等。