作者简介
漆月,女,1984年生,硕士,馆员,研究方向:图书情报,E-mail:qqt.123@163。
石璐,女,1984年生,工程师,研究方向:人工智能、大数据技术。
Semantic Duplicate Checking Strategy for Book Acquisition
QI Yue1  SHI Lu2
( 1. Southwest University, Chongqing 400715, China; 2. Nokia Shanghai Bell Co. Engeneering Department, Beijing 100010, China )
Abstract: The existing system of library acquisition and duplicate checking can only work with same ISBN number or title. But in the case of serious homogeneity of book publishing, it is difficult to filter out books with similar contents, a method of book semantic duplication checking based on natural language processing technology is presented to solve this. Firstly, subject words, abstracts and catalogues are chosen as the evaluation elements to build model with library. Then, calculate the semantic similarity of context with Word2Vec and WMD, get the weight of similarity by AHP method. Then get comprehensive evaluation of book similarity. Finally, verify the duplication checking strategy w
ith the library data of Southwest University.向云霄
柴静调查 穹顶之下Keywords: Book Duplicate-Checking; Context Similarity; Semantic Analysis; Evaluation Index System
杂技团表演
主题词(收稿日期:2019-10-13)
山藿香《汉语主题词表》
《汉语主题词表》自1980年问世以后,经1991年进行自然科学版修订,在我国图书情报界发挥了应有作用,曾经获得国家科学技术进步二等奖。为适应网络环境下知识组织与数据处理的需要,由中国科学技术信息研究所主持,并联合全国图书情报界相关机构,自2009年开始进行重新编制工作,拟分为工程技术卷、自然科学卷、生命科学卷、社会科学卷四大部分逐步完成。目前工程技术卷和自然科学卷已出版。
《汉语主题词表(工程技术卷)》共收录优选词19.6万条,非优选词16.4万条,等同率0.84,在体系结构、词汇术语、词间关系等方面进行了改进创新。《汉语主题词表(自然科学卷)》共收录专业术语12.4万条,包含数学、物理学、化学、天文学、测绘学、地球物理学、大气科学、地质学、海洋学、自然地理学等学科领域,收词系统、完整,语义关系丰富、严谨,每条词汇都有相应的学科分类
号表现其专业属性,并与同义英文术语对应。同时,建立《汉语主题词表》网络服务系统,提供术语查询、文本主题分析、知识树辅助构建等服务。《汉语主题词表》可用于汉语文本分词、主题标引、语义关联、学科分类、知识导航和数据挖掘,是文本信息处理及检索系统开发人员不可或缺的工具。
《汉语主题词表(工程技术卷)》已于2014年由科学技术文献出版社出版,分为13个分册,总定价3 880元。《汉语主题词表(自然科学卷)》已于2018年5月由科学技术文献出版社出版,分为5个分册,总定价1 247元。两卷均可分册购买。
66
2019年第11期(总第186期)
>大庭广众的意思