云朵开场白
BGM响起后,云朵出现 屏幕上巨大的“书蕴” 简单介绍项目
书中自有颜如玉,书中自有黄金屋。 大家好,我是书蕴的项目负责人陈睿。
书蕴,是基于书评内容的书籍推荐系统。 希望在信息泛滥的今天,我们能有效地为书籍爱好者提供一片阅读的净土,将阅读带进每个人的心里。
话不多说,我们先来看看书蕴本体。
BGM响起后,云朵出现 屏幕上巨大的“书蕴” 简单介绍项目
书中自有颜如玉,书中自有黄金屋。 大家好,我是书蕴的项目负责人陈睿。
书蕴,是基于书评内容的书籍推荐系统。 希望在信息泛滥的今天,我们能有效地为书籍爱好者提供一片阅读的净土,将阅读带进每个人的心里。
话不多说,我们先来看看书蕴本体。
没什么好说的 引一句话: > 你是你自己最大的倚仗。
控制反转
核心思想是:反转资源获取的方向。 容器主动的将资源推送给它所管理的组件。组件只需要选择一种合适的方式来接受资源。
这是我个人的spring笔记,刚上手,非常僵硬。 大佬们请绕路,不喜勿喷,谢谢大家。
本来是试着自己看spring实战,果然还是太菜了,看的一脸懵逼,决定跟着视频学,然后再深入书本。
然后今天发现自己鼻音重、音色不好的先天条件不足,试着录fools……听着心态炸了。不说了。
书蕴笔记系列索引在这里:书蕴——基于书评的人工智能推荐系统
前面说到了我们已经提取出每本书的标签集合了,那么现在的关键问题就是通过标签来进行书籍推荐了,这大概也是一个阶段性重点了,毕竟这个时间节点是直接见成效的时刻。这篇博客将以“计算书籍之间的距离”为主,先介绍思路,重点通过控制变量法调节各个参数,罗列出不同的效果,并确定效果最好的阈值。
当我们已经拿到每本书的标签(tags[])之后,剩下的就是去找tags列表里每一项之间的距离。 这里每一项都是上一篇文章的思路下计算得到的标签集合
具体思路是:使用中文维基百科语料库训练出的word2vec模型作为泛集,在泛集中找到两本书标签之间的距离,使用平均值等不同方式计算书与书的距离。
整体索引在此 :书蕴——基于书评的人工智能推荐系统
之前把书评预处理并将每本书训练出了word2vec模型,本篇博客针对如何提取书籍的标签具体展开描述。
索引篇也提到了,主要是通过word2vec模型,找出前a的高频词放入new_word_set,然后计算new_word_set中所有词距离最近的前5个词,并把这5个词也加入new_word_set中,重复迭代获取标签。其中的数字可以修改,以下列出不同参数的不同效果。具体步骤与伪码以及源码如下:
整体索引在此 书蕴——基于书评的人工智能推荐系统
上次把文本进行了预处理,主要是使用正则去除标签以及对文本去除停用词以及结巴分词。 后续还会加入tf-idf来动态选取停用词。
关于word2vec到底是什么,推荐一个链接:DL4J,有对理解帮助很大的图文 虽然链接里的word2vec是java写的,和我们用的python word2vec不太一致,但思想上是一致的,而且文章具有深度的科研性以及广度的科普性,值得一看。
整体索引在此 书蕴——基于书评的人工智能推荐系统
因为数据是爬虫爬下来的,具体内容被写入到了excel表里,所以文本预处理分为2块。一个是从excel中获取数据,然后去掉文本中所有的html标签,最后整理成txt文档中一行一条评论的形式。另一个是对文本去停用词、分词,处理成一个词一个空格的形式,便于word2vec训练模型。