首页
网页正文提取引擎

网页正文提取引擎 是由 西岭风清互联网试验室 自主研发的网页正文提取器。

经过海量的生产环境中的随机网页的测试,网页正文提取引擎对现互联网上的新闻、博客、论坛等网页准确率在95%以上。

网页正文提取引擎是通过建立向量矩阵和上下文分析,排除网页元素的各种干扰而实现的正文的精准定位;非传统采用正则表达式的正文提取引擎。

网页正文提取引擎核心代码用C语言实现;通过数理算法的优化,提取正文非常高效和精准。

欢迎大家使用网页正文提取引擎,使用方法如下:

搜索引擎(data.xlfqnet.cn) 中输入你要查找的关键字,然后点击搜索结果页面中“高速浏览”链接即可看到该引擎提取的网页正文。

如果有建议或合作,请联系 QQ:154948101 或 Email:wen@xlfqnet.cn

------------西岭风清互联网试验室 2010年5月 发布