在自动提取描述过程中,文本中有些内容和对象非常重要,它们会直接影响到摘要的质量。例如,标题中出现的关键词、词的频率、词的位置、句子长度、句子结构以及排版特征等,它们在自动生成描述的过程中,对摘要句的筛选、摘要的组织等发挥着重要作用,必须对它们深入体会,多加分析。, @, ]% E6 C9 B! E' ?
I" | i; k! D: {' J6 |1 Y3 J( ]
(1)词频
9 Z7 m! ^+ z' f: v4 ~) K6 L 4 ^$ u# L* z/ _6 \/ x; K% g% G
词频是指词语在文本中出现的频率。JCY强调,具有标引价值的词汇往往是中频词,高频词一般是反映句子语法结构的虚词,而低频词不适宜作为标引词。同样,在摘要中发挥重要作用的词汇也是具有较高频率的关键词(重要词),而这些词在整个文章中属于中频词。通过对这些“中频词”的数量可以计算句子的权值来确定摘要候选句。
O9 W. g+ n7 T 7 M& J8 e% x# } r
(2)标题3 \: h& J0 N! i5 ?( A* ]
# b" j" C( N, u4 E+ w; o. o. P/ s# w
文本信息的标题是文本内容的重要体现,文本的各级标题都不同程度地反映了文本所讨论的主要内容。因此,标题中的词汇是摘要的重要素材,其中关键词和原文内容和讨论主题往往有紧密的联系。剔除了标题中的功能词,余下的关键词可作为抽取摘要句的“重要词”。
m" c6 B3 J K H
; s& }7 ?, K! n* D3 B9 j/ ]9 ~ (3)指示词
) _- B0 o4 B6 g. c. T7 k% W- d
5 Q6 w, f4 v9 R( } v2 [4 n, Q 文章中会有许多短语(词汇)用于引申出反映文本内容的总结性的句子,这类短语或词汇叫指示词。这类指示词有如下形式:“本文论述了”、“本文的目的”、“综上所述”等等,这些指示词后所接的句子往往高度概括了文献主题。因此,这些句子被选作为摘要候选句的可能性非常大。
! t# N: k) j6 [0 f3 o3 O4 {/ Y + F+ B/ L4 l3 |$ H- G6 p( N3 F9 K
(4)位置
1 F6 e4 P% [+ _' ^1 F) i+ ?- L : D$ ]% @. j. } ]2 V5 N1 T
不同位置的句子对文章及段落的主题贡献是不相同的,JCY对此曾经有过些研究,我们认为:段落首句为段落主题句的概率达85%,位于段落末句的概率也达7%。因此,这些位置的句子成为摘要句的可能性很大,在进行自动摘要的过程中,有必要提高处于这些特殊位置的句子的权值。2 U/ v8 \, V' U0 a7 z7 y
8 D' Z9 l ` F# Y0 H (5)句法结构
+ }3 n- D; s2 J, C v" ] * r5 S9 M( m9 s5 v/ G- l, J& ?
文章中的句子形式有多种多样,有陈述句、疑问句、感叹句等等,但真正反映文章主题的主要还是陈述句,这也表明文章的摘要多以陈述句组成。因此,选择摘要句时,应尽可能地抽取陈述句,而应避免疑问句、感叹句等形式的句子进入摘要。
, N* M2 [6 A4 @
, O3 |+ ^' |4 ^5 p. S$ B (6)句子长度
; W% v, ]3 B2 m9 I k8 X7 @
! d; s( z& ?' K4 N% _/ i 摘要表现为短和精,即以简短的文字概括文章论述的主要内容。因此,在选择摘要句时,应选择那些较为精练简短的句子,过度冗长的句子通常不宜选人摘要中。
7 R3 `& Z6 \7 g8 t& \ 7 R- |. e6 Z0 d, P- H- \
(7)网页排版特征
& g" k, x' X& \
$ Z2 r' g8 H/ U4 U( f. a8 H2 d 在网页设计软件日臻完善的前提下,对机读文献的排版格式也提出了很高的要求。编者往往通过特殊格式突出文献的主题内容,如加大字号、改为粗体或改为特殊字体,加下划线、文字居中排列、加标号、增大缩进量、加阴影、加边框、超级链接等。确定词或句的权值时,应考虑这些特殊的格式特征,适当地将权值加大。
7 u" l+ [- L5 p) c9 y 5 b4 M7 f- Q% Z. I( p
9 Q) K' [9 y- u) R+ i+ X
http://www.120gc.cn/编辑" y8 X& k3 U( w9 J, E% A# O
# L2 N% E$ S2 F
|