一、句子长度
. F1 @; d% u+ s# A$ Q* j
' w" n% L! W. w; f 摘要表现为短和精,即以简短的文字概括文章论述的主要内容。因此,在选择摘要句时,应选择那些较为精练简短的句子,过度冗长的句子通常不宜选人摘要中。# z# c$ j, w W6 U6 n
4 p) [$ N, ~# C 二、标题
8 S5 M0 g9 U: c' r( n
0 r7 a+ h0 |0 z! r 文本信息的标题是文本内容的重要体现,文本的各级标题都不同程度地反映了文本所讨论的主要内容。因此,标题中的词汇是摘要的重要素材,其中关键词和原文内容和讨论主题往往有紧密的联系。剔除了标题中的功能词,余下的关键词可作为抽取摘要句的“重要词”。
0 k( L7 C" H% U2 G& w1 t
2 ]& J9 w/ ?+ {# }2 c 三、指示词; N3 S0 x J6 B% X; F* ?9 Q
. o+ _# T9 x, m2 h7 P4 x+ y8 T
文章中会有许多短语(词汇)用于引申出反映文本内容的总结性的句子,这类短语或词汇叫指示词。这类指示词有如下形式:“本文论述了”、“本文的目的”、“综上所述”等等,这些指示词后所接的句子往往高度概括了文献主题。因此,这些句子被选作为摘要候选句的可能性非常大。" D/ B9 y4 P* G, ^
! G- c; K- D" {) i4 u1 _ 四、词频9 @: d0 e/ ?3 v% P- E. ?1 p
7 @9 q, c8 F! ?1 `
词频是指词语在文本中出现的频率。思亿欧强调,具有标引价值的词汇往往是中频词,高频词一般是反映句子语法结构的虚词,而低频词不适宜作为标引词。同样,在摘要中发挥重要作用的词汇也是具有较高频率的关键词(重要词),而这些词在整个文章中属于中频词。通过对这些“中频词”的数量可以计算句子的权值来确定摘要候选句。. D/ }8 S1 s) k& E
6 a& L6 n9 r0 F* a' [: s 五、位置" w. ]0 {3 L* `2 w Z' W
9 b% G% T: v! J3 E 不同位置的句子对文章及段落的主题贡献是不相同的,思亿欧对此曾经有过些研究,我们认为:段落首句为段落主题句的概率达85%,位于段落末句的概率也达7%。因此,这些位置的句子成为摘要句的可能性很大,在进行自动摘要的过程中,有必要提高处于这些特殊位置的句子的权值。
4 Q' l5 f1 ~0 m6 D8 m( F' a
' u; q2 H- x- G, {8 D$ j/ f 六、句法结构 G; \0 ~$ t* \' S
$ E z5 y8 s3 c 文章中的句子形式有多种多样,有陈述句、疑问句、感叹句等等,但真正反映文章主题的主要还是陈述句,这也表明文章的摘要多以陈述句组成。因此,选择摘要句时,应尽可能地抽取陈述句,而应避免疑问句、感叹句等形式的句子进入摘要。
& H# |/ ~8 {: Q
; u: i$ o+ M- M) V! M, T$ o* j' x9 k 七、网页排版特征) C5 s% Y! m, ? i; ^0 r
8 {8 o0 v# @. u 在网页设计软件日臻完善的前提下,对机读文献的排版格式也提出了很高的要求。编者往往通过特殊格式突出文献的主题内容,如加大字号、改为粗体或改为特殊字体,加下划线、文字居中排列、加标号、增大缩进量、加阴影、加边框、超级链接等。确定词或句的权值时,应考虑这些特殊的格式特征,适当地将权值加大。 |