论坛正文内容提取通用方法的研究
DOI:10.19392/j.cnki.16717341.201714071
摘要:本文提出了一种新颖的通用论坛信息的提取算法。针对标题,利用论坛标题与网页标题相同这一特征提取。针对回帖模块的定位,我们提出了一种称为基于相似性度量和最低公共父节点的边界确定(BDBSL)的算法。针对回帖内容的提取,我们利用该标签所采用的css样式绝大多数都含有minheight属性这一特点进行提取。针对主题帖,利用主题帖独有的分享模块进行单独提取。
关键词:论坛正文提取;BDBSL算法;dom树;html
1 标题的提取
通过查看网页的源代码我们发现,论坛标题总是用来做网页标题,而网页的标题在
标签下面的在100个样例数据中进行验证,成功率高达98%,所以我们采用固定的xpath来提取标题。
2 BD-BSL算法确定回帖所在的模块
2.1 DOM树的使用及锚节点的提出
对于一给定URL的论坛,我们可以通过它的URL提取到它的HTML源代码,进而生成与源代码相对应的DOM树。
通过分析大量论坛发现,同一论坛中所有回帖各部分内容对应的标签格式是相一致的。假设论坛中所有的回帖都包含同一个属性N,回帖数量有M个,则DOM树中至少有M个节点为属性N的标签。通过分析随机选取的100个论坛样例,我们发现所有论坛的所有回帖都包含“发布时间”(PT)这一属性,因此,我们选取PT作为属性N,它的标签所对应的DOM树中的节点作为锚节点。假设锚节点的数量是m(m>1)。
下文中,我们将一个回帖模块记为一项数据记录(DR)。
2.2 相似度分析聚类确定哪些锚节点是属于DR部分的有效锚节点
Step1 构造相似性矩阵M1
从锚节点出发依次经过它的所有祖先节点一直到达树的根节点会形成一条路径,将这条路径上的所有节点对应的标签按照经过的先后次序提取出来形成一个序列。前文中我们假设锚节点数量为m,因而最终会形成m个序列,对于在DOM树中从左到右依次出现的m个锚节点项分别标号为1,2,…m。
接下来,构造一个m×m的矩阵M1。对这m个锚节点两两进行相似性分析,形成一个相似性分值作为相似性矩阵对应位置的值(m1ij是第i个锚节点提取到的序列和第j个锚节点提取到的序列的相似性分值,这个值处在矩阵的第i行第j列)。m1i j 介于01之间,其值越接近于1,相似度越大。
Step2 构造相似性矩阵M2
除了要对上一步形成的序列做相似性分析之外,我们注意到,锚节点的直接父节点通常不止有锚节点一个子节点。此外,大部分锚节点的兄弟节点依然会向下拓展形成多个子节点,显然,对这些兄弟节点及它们的的子节点做相似性匹配也是很有必要的。基于此,我们构造了一个m×m的相似性矩阵M2。
接下来,对锚节点所在的直接子树做相似性分析。锚节点的直接子树涵盖范围如图1。
图1 锚节点的直接子树覆盖范围(蓝色圆圈为锚节点)
M2矩阵中存储的值是每两个锚节点的所在的直接子树的相似性分值m2i j (i,j = 1,2, … ,m)。
Step3 通过M1和M2构造最终相似性矩阵M
通过矩阵M1和M2得到矩阵M相应位置的值mi j 。即:
mi j = m1i j + m2ij 2(i,j = 1,2, … ,m)
通过矩阵M我们便可以知道任意两个锚节点之间的相似性分值。
Step4 基于贪婪策略的聚类分析
在此,我们将对锚节点做聚类分析。首先,设定一个阈值Χ作为衡量相似的指标,若第一个锚节点和第二锚节点的相似度大于Χ,则认为它们之间有较高的相似性从而将其分类为新的簇。然后,继续与第三个锚节点进行比较,只要相似度符合条件,就将锚点放在包含第一个锚节点的群集上。重复执行该操作,直到所有节点与其余节点聚集。
最终我们把最长的簇里面的锚节点确定为有效的锚节点。
2.3 BD-BSL算法确定回帖边界
我们对每一个锚节点向上遍历寻找它的父节点并进行比对,直到找到一个共同祖先节点,这个节点就是所有锚节点的最低公共父节点(LCN)。
任意一个锚节点Ni,Ni以上,LCN以下部分便是一个DR的模块。
3 回帖内容的提取
在论坛网页中,用户回复内容区域被分配固定的一块大小。我们查看其对应标签的class并在层叠样式表(css)中查找该class的属性,发现minheight就是定义内容区域大小默认值的属性。为了证明这个属性可以被用来作为提取内容的标准,我们做了检验,成功率约为90%。
4 主题帖的提取
利用主题帖独有的分享模块提取主题帖。分析分享模块的标签,发现它们往往处于类似“
5 结语
用我们的方法进行通用论坛正文提取是可行的,但是需要进一步的优化。比如对于帖子数较少的网页提取成功率会降低。
参考文献:
[1]Song X,Liu J,Cao Y,et al.Automatic extraction of web data records containing usergenerated content[C].ACM International Conference on Information and Knowledge Management.ACM,2010:3948.
[2]苏秀芝.网页去噪与特征提取算法的研究及实现[D].西南交通大學,2010.