word2vec 基于 gensim 包的实现以及 预训练模型的再训练

评论(0)

先占个坑,基于 Python gensim模块进行word2vec的训练相对容易,在此基础上根据选择相应的预训练的word2vec 向量,基于自有数据的再训练更符合实际应用。 官方文档 关于模型的训练就不说了,主要说下预训练模型的...

Lucene7 的加权检索(Boost)

评论(0)

总体来说,lucene可以设置两个阶段的权重: 建立索引时对文档设置权重: 然而,在lucene 7.0发布时移除了索引时boost: LUCENE-6819: Index-time boosts are not supported anymore. As a replacement, index-time...

Neo4j导入思知OwnThink开源的知识图谱

评论(31)

环境: 1.Neo4j database: 4.0.1 (是Neo4j graph数据库版本,非 neo4j desktop版本) 2.jdk11 (neo4j 4.0.1要求jdk需要11) OwnThink开源了史上最大规模(1.4亿)中文知识图谱,地址:https://github.com/ownthin...

Linux 的一些常用命令——持续更新

评论(0)

Linux本地和服务端拷贝文件 拷贝文件(从本地拷贝到远程): scp local_file remote_username@remote_ip:remote_folder 或者 scp local_file remote_username@remote_ip:remote_file 或者 scp local_file remote_...

智能问答

评论(3)

问题: 提交 答案:这是答案 项目介绍: 医药知识问答部分结合开源项目:医药知识图谱 ;通过python自带的wsgi服务器构建HTTP接口;并导入知识实体到Neo4j数据库。实现了医药相关的问答。 3.26号 update :将导入...

Linux一次 out of memory经历

评论(0)

最近在看百度PaddleNlp的模型,本着是骡子是马先拿出来溜溜的原则,于是根据指导安装了Paddle,下载了 短文本语义匹配的模型。 使用:官网说的挺详细了,在实际使用的时候可以通过调用ssh脚本或者直接执行python...

Ubuntu 18.0.4 从事科学检索活动(安装SSR)

评论(2)

由于一些众所周知的原因,访问某些国外的网站下载jar包啊,查问题啊(copy代码)很难受。另外一个重要原因是不能同步google账户中的书签密码等。所以安装完Linux之后有必要再折腾一下。进入正题: 安装electron-s...

随便写写

评论(0)

突然发现最近几天访问量增加了,发现原来是大神终于把我翻译的文章挂到他文章里了,开心。 最近在把百度的paddleNLP的 SimilarityNet 框架计算短文本语义匹配整合到项目中,还没怎么具体的看具体的实现,就把它强...

Numpy和数据展示的可视化介绍

评论(4)

翻译自Jay Alammar的一篇文章。 Translated from an article by Jay Alammar 原文地址: https://jalammar.github.io/visual-numpy/ 有兴趣的还可以来看看Neo4j导入思知开源的1.4亿规模的中文知识图谱 和 智障问...

知识图谱的设计(二)

评论(3)

继上篇,本文将用 webProtege 构建,并将构建的文件导入到图数据库 NEO4J 中。 一、WebProtege: https://webprotege.stanford.edu 是斯坦福大学的一个在线服务,该项目也是开源的,开源地址: https://github.com...