Ranking常量表
StatisticalWeight = Log2( ( 2 + IndexedRowCount ) / KeyRowCount ) |
短语的匹配排名象个别Keys如KeyRowCount,估计计算结果可能不准确,会稍高于实际数字。
ISABOUT的排序Ranking
ISABOUT是一种被称之为向量空间查询的传统信息检索术语。该排名算法(Rank algorithm)采用了著名的杰卡德公式。排名的计算方法先为每个条目做计算,然后得出结果,相关说明如下。
ContainsRank = 同样被用来计算 单条目的CONTAINSTABLE排序 (如下) 。Weight = 每个条目查询的权重值,默认为1。
WeightedSum = Σ[key=1 to n] ContainsRankKey * WeightKey
Rank = ( MaxQueryRank * WeightedSum ) / ( ( Σ[key=1 to n] ContainsRankKey2 )
+ ( Σ[key=1 to n] WeightKey2 ) - ( WeightedSum ) )
FREETEXT中的排序Ranking
FREETEXT排名是基于对奥卡皮BM25排名公式计算得出的。 FREETEXT查询会增加关键字并间接生成到查询(间接形式的原始查询词),这些关键词被当作独立个体分别加以处理,而从它们所派生出的同义词也被视作相同权重计算。每个关键词在查询中的统计将直接影响到排序Rank值。
Rank = Σ[Terms in Query] w ( ( ( k1 + 1 ) tf ) / ( K + tf ) ) * ( ( k3 + 1 ) qtf / ( k3 + qtf ) ) )
注:
W是Robertson-Sparck Jones的权重。
在这个公司中,w被定义为:
w = log10 ( ( ( r + 0.5 ) * ( N – R + r + 0.5 ) ) / ( ( R – r + 0.5 ) * ( n – r + 0.5 ) )
N:被查询的property计算的索引行数。
n:包含关键字Word的行数。
K is ( k1 * ( ( 1 – b ) + ( b * dl / avdl ) ) ).
dl:property长度,关键字 word出现的次数。
Avdl:被查询的property平均长度,在关键字出现的次数。
k1, b, and k3 分别为常量1.2, 0.75, and 8.0。
tf:在特定行中出现的在查询property中的频率字。
Rank = Σ[Terms in Query] w ( ( ( k1 + 1 ) tf ) / ( K + tf ) ) * ( ( k3 + 1 ) qtf / ( k3 + qtf ) ) )
注:
W是Robertson-Sparck Jones的权重。
在这个公司中,w被定义为:
w = log10 ( ( ( r + 0.5 ) * ( N – R + r + 0.5 ) ) / ( ( R – r + 0.5 ) * ( n – r + 0.5 ) )
其中:
N:提交查询的Property被索引行的计数。
K :( k1 * ( ( 1 – b ) + ( b * dl / avdl ) ) )。
dl : Property长度在关键字 word出现的次数。
Avdl : 被查询的Property平均长度,在关键字出现的次数。
k1, b, and k3分别是常量1.2, 0.75, and 8.0。
tf:在特殊行中出现的在查询Property中的频率字。
最后 ,让我们用一个实例来观察Rank计算结果,可以加深对以上Rank公式的理解。
|
请观察如下语句所产生的按rank值倒序排序返回的结果集:
|
原文链接:http://msdn2.microsoft.com/en-us/library/ms142524.aspx
【相关文章】
| 共2页: 上一页 [1] 2 | ||
|