《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 一種結合TF-IDF和Simhash的科技項目文本相似性度量方法
一種結合TF-IDF和Simhash的科技項目文本相似性度量方法
電子技術應用
孫北寧1,2,呂維新3,曾俊4,肖衡4
(1.云南電網有限責任公司 科數部,云南 昆明 650011;2.西南林業大學 大數據與智能工程學院,云南 昆明 650224; 3.云南電網有限責任公司 昆明供電局,云南 昆明 650011;4.云南云電同方科技有限公司,云南 昆明 650214)
摘要: 為了提高科技項目文本相似性度量的準確性和性能,將TF-IDF和Simhash相結合,提出了一種新的科技項目文本相似性度量方法。首先,該方法對科技項目文本進行預處理得到詞項集合,再使用TF-IDF計算詞項集合中每個詞項的權重值,并選取具有較高權重值的重要詞項;其次,使用Simhash把重要詞項映射為固定長度的二進制串,并求和得到文本的Simhash簽名;最后,使用漢明距離計算兩個Simhash簽名間的相似性。實驗結果表明,所提方法在查準率、召回率和F度量值方面優于傳統的Simhash算法和TF-IDF方法。
中圖分類號:TP311
文獻標志碼:A
DOI: 10.16157/j.issn.0258-7998.223379
中文引用格式: 孫北寧,呂維新,曾俊,等. 一種結合TF-IDF和Simhash的科技項目文本相似性度量方法[J]. 電子技術應用,2023,49(6):89-93.
英文引用格式: Sun Beining,Lv Weixin,Zeng Jun,et al. An approach for text similarity measurement of science and technology projects combing TF-IDF and Simhash[J]. Application of Electronic Technique,2023,49(6):89-93.
An approach for text similarity measurement of science and technology projects combing TF-IDF and Simhash
Sun Beining1,2,Lv Weixin3,Zeng Jun4,Xiao Heng4
(1.Department of Science Technology and Data, Yunnan Power Grid Co., Ltd., Kunming 650011, China; 2.School of Big Data and Intelligent Engineering, Southwest Forestry University, Kunming 650224, China; 3.Kunming Power Supply Bureau, Yunnan Power Grid Co., Ltd., Kunming 650011, China; 4.Yunnan Yundian Tongfang Technology Co., Ltd., Kunming 650214, China)
Abstract: To enhance the accuracy and performance of text similarity measurement of science and technology projects, this paper proposes a new approach for measuring text similarity of science and technology projects by combining TF-IDF and Simhash. Firstly, this method uses natural language processing technology to preprocess science and technology project texts to get a term set, then uses the TF-IDF method to calculate the TF-IDF value of each term in the term set, and selects the important term with higher TF-IDF value. Secondly, this method uses the Simhash algorithm to get the Simhash signature of the text through mapping the selected important terms into fixed binary strings. Finally, Hamming distance is used to calculate the similarity between two Simhash signatures. Experimental results show that compared to the traditional Simhash and TF-IDF, the proposed method can promote the evaluation metrics of precision, recall and F-measure.
Key words : science and technology project text;text similarity;TF-IDF;Simhash

0 引言

隨著國家對科技事業經費的大量投入,少數科研單位或個人為了獲取更多的科研經費,出現了重復申報的現象。文本相似性度量被認為是檢測文本重復的最好方法之一,可以用來自動檢測科技項目文本的相似性和重復性。

TF-IDF是一種經典的文本相似性度量方法,將文本視為詞項的集合,并通過詞頻信息將文本表示為一個向量,以此計算文本的相似性。但是,該方法并沒有降低文本模型的維度。對于科技項目文本,由于詞項數目巨大,因此,基于詞頻向量模型的文本表示是高維、稀疏的,這將導致低效的計算性能。

Simhash是一種局部敏感哈希方法,將高維數據降維到具有固定長度的二進制串(Simhash簽名),再通過對二進制串進行相似性計算來比較文本的相似度。這種方法在高維數據空間具有優異的計算性能。但是,該方法未考慮科技項目文本中詞項的重要性,存在準確率不高的問題。



本文詳細內容請下載:http://m.rjjo.cn/resource/share/2000005355




作者信息:

孫北寧1,2,呂維新3,曾俊4,肖衡4

(1.云南電網有限責任公司 科數部,云南 昆明 650011;2.西南林業大學 大數據與智能工程學院,云南 昆明 650224;
3.云南電網有限責任公司 昆明供電局,云南 昆明 650011;4.云南云電同方科技有限公司,云南 昆明 650214)


此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 黄色网址网站在线观看 | 欧美激情综合亚洲五月蜜桃 | 毛片视频在线免费观看 | 在线观看精品视频 | 亚洲国产精品一区二区三区 | 国内自拍网站 | 草草视频免费在线观看 | 天堂av2017男人的天堂 | 一级爱做片免费观看久久 | 99re热视频这里只精品 | 中文在线视频观看 | 欧美午夜不卡 | 国产精品视频第一区二区三区 | 日本欧美一级二级三级不卡 | 情侣偷偷看的羞羞视频网站 | 日韩欧美精品综合一区二区三区 | cao在线观看 | 精品国产综合区久久久久久 | 波多久久夜色精品国产 | 99精品久久久久久久免费看蜜月 | 美国一级做a一级视频 | 国产成人深夜福利在线观看 | 国产成人久久久精品毛片 | 一级片免费在线 | 久操免费 | 三级黄色片网址 | 国产合集91合集久久日 | 999热精品这里在线观看 | 美女扒开双腿让男人桶 | 国产精品黄在线观看免费 | 丝袜足液精子免费视频 | 日韩三级中文 | 国产日比视频 | 亚洲人成综合网站在线 | 成人亚洲视频在线观看 | 搞黄网站在线观看 | 黄a一级 | 精品国产一区二区三区久 | 日本特一级毛片免费视频 | 99久久精品久久久久久清纯 | 日韩精品免费一级视频 |