诗与代码

陈小睿同学的技术博客和闲聊杂谈。


  • 首页

  • 刷题记录

  • 标签129

  • 分类6

  • 时间线63

  • 留言板

  • 关于我

  • 搜索

计算机设计大赛-校赛展示

发表于 2018-04-13 | 更新于 2020-05-10 | 分类于 项目记录 | 评论数: | 阅读次数:
| 2.4k | 8 min

云朵开场白

BGM响起后,云朵出现 屏幕上巨大的“书蕴” 简单介绍项目

书中自有颜如玉,书中自有黄金屋。 大家好,我是书蕴的项目负责人陈睿。

书蕴,是基于书评内容的书籍推荐系统。 希望在信息泛滥的今天,我们能有效地为书籍爱好者提供一片阅读的净土,将阅读带进每个人的心里。

话不多说,我们先来看看书蕴本体。

阅读全文 »

spring学习笔记-01-IOC与DI概述

发表于 2018-02-09 | 更新于 2020-05-10 | 分类于 学习笔记 | 评论数: | 阅读次数:
| 380 | 1 min

前言

没什么好说的 引一句话: > 你是你自己最大的倚仗。

正文

IOC(Inversion of Control)

控制反转

核心思想是:反转资源获取的方向。 容器主动的将资源推送给它所管理的组件。组件只需要选择一种合适的方式来接受资源。

阅读全文 »

spring学习笔记-01-总述

发表于 2018-02-09 | 更新于 2020-05-10 | 分类于 学习笔记 | 评论数: | 阅读次数:
| 290 | 1 min

前言

这是我个人的spring笔记,刚上手,非常僵硬。 大佬们请绕路,不喜勿喷,谢谢大家。

本来是试着自己看spring实战,果然还是太菜了,看的一脸懵逼,决定跟着视频学,然后再深入书本。

然后今天发现自己鼻音重、音色不好的先天条件不足,试着录fools……听着心态炸了。不说了。

阅读全文 »

书蕴笔记-3-使用中文维基百科语料库的word2vec模型计算书籍距离

发表于 2018-02-03 | 更新于 2020-05-10 | 分类于 项目记录 | 评论数: | 阅读次数:
| 70.2k | 328 min

前言

书蕴笔记系列索引在这里:书蕴——基于书评的人工智能推荐系统

前面说到了我们已经提取出每本书的标签集合了,那么现在的关键问题就是通过标签来进行书籍推荐了,这大概也是一个阶段性重点了,毕竟这个时间节点是直接见成效的时刻。这篇博客将以“计算书籍之间的距离”为主,先介绍思路,重点通过控制变量法调节各个参数,罗列出不同的效果,并确定效果最好的阈值。

思路

当我们已经拿到每本书的标签(tags[])之后,剩下的就是去找tags列表里每一项之间的距离。 这里每一项都是上一篇文章的思路下计算得到的标签集合

具体思路是:使用中文维基百科语料库训练出的word2vec模型作为泛集,在泛集中找到两本书标签之间的距离,使用平均值等不同方式计算书与书的距离。

阅读全文 »

书蕴笔记-2-使用word2vec模型迭代获取标签

发表于 2018-02-02 | 更新于 2020-05-10 | 分类于 项目记录 | 评论数: | 阅读次数:
| 4.6k | 21 min

前言

整体索引在此 :书蕴——基于书评的人工智能推荐系统

之前把书评预处理并将每本书训练出了word2vec模型,本篇博客针对如何提取书籍的标签具体展开描述。

思路

索引篇也提到了,主要是通过word2vec模型,找出前a的高频词放入new_word_set,然后计算new_word_set中所有词距离最近的前5个词,并把这5个词也加入new_word_set中,重复迭代获取标签。其中的数字可以修改,以下列出不同参数的不同效果。具体步骤与伪码以及源码如下:

阅读全文 »

书蕴笔记-1-word2vec模型训练

发表于 2018-01-29 | 更新于 2020-05-10 | 分类于 项目记录 | 评论数: | 阅读次数:
| 1.4k | 5 min

前言

整体索引在此 书蕴——基于书评的人工智能推荐系统

上次把文本进行了预处理,主要是使用正则去除标签以及对文本去除停用词以及结巴分词。 后续还会加入tf-idf来动态选取停用词。

word2vec模型训练

word2vec简介

关于word2vec到底是什么,推荐一个链接:DL4J,有对理解帮助很大的图文 虽然链接里的word2vec是java写的,和我们用的python word2vec不太一致,但思想上是一致的,而且文章具有深度的科研性以及广度的科普性,值得一看。

阅读全文 »

书蕴笔记-0-文本预处理

发表于 2018-01-28 | 更新于 2020-05-10 | 分类于 项目记录 | 评论数: | 阅读次数:
| 885 | 4 min

前言

整体索引在此 书蕴——基于书评的人工智能推荐系统

思路

因为数据是爬虫爬下来的,具体内容被写入到了excel表里,所以文本预处理分为2块。一个是从excel中获取数据,然后去掉文本中所有的html标签,最后整理成txt文档中一行一条评论的形式。另一个是对文本去停用词、分词,处理成一个词一个空格的形式,便于word2vec训练模型。

阅读全文 »
1…6789
陈小睿

陈小睿

野心一大,世界就小。
63 日志
6 分类
129 标签
GitHub E-Mail B站 简历
Creative Commons
传送门
  • Ewen-ZY拐叔博客
  • 某知名深度学习大佬Bboy
  • 暴躁老弟
0%
© 2023 陈小睿 | 184.8k
|