TextRank算法-Nlp

TextRank算法


d 是阻尼系数防止pagerank调入陷阱的
In(Vi) 是指对Vi这个点入链点的集合
Out(Vj) 是指对Vi这个点入链点的集合中一个点出莲数目
S(Vj) Vj这个点现有page rank权重
#计算流程如下
	iter 迭代次数
	error 两次pagerank计算允许误差阈值
	init weight_array[K] = [1] * k  #k既点数目,在textrank里面即是词数目,初始化一个weight权重
	words_window = create_words_window(words  l ) #所有分词按照顺序,建立起以l大小窗口,词组合,窗口内部,词和词即是入链又是出链
	for i = 0 ;i <iter ; i++
	    tmp_pange_rank = pange_rank(words_window)
	    if calc_diff(tmp_page_rank , weight_array) < error:
	        weight_array = tmp_page_rank    
	        break
	    weight_array = tmp_page_rank
	return sort  words with  weight_array  desc

####未完待续

参考

Fork me on GitHub