推广 热搜： 公司快速中国上海未来金企业政策教师系统

GeneralNewsExtractor

日期：2024-11-05 作者：caijiyuan caijiyuan 评论：0 移动：http://kaire.xrbh.cn/news/10045.html

核心提示：GeneralNewsExtractor(新闻网页正文通用抽取器)是一个基于《基于文本及符号密度的网页正文提取方法》论文用Python实现的正文抽取

GeneralNewsExtractor(新闻网页正文通用抽取器)是一个基于《基于文本及符号密度的网页正文提取方法》论文用Python实现的正文抽取器，可以用来提取 HTML 中正文的内容、作者、标题。

GeneralNewsExtractor

项目起源

开发这个项目，源自于我在知网发现了一篇关于自动化抽取新闻类网站正文的算法论文——《基于文本及符号密度的网页正文提取方法》）

这篇论文中描述的算法看起来简洁清晰，并且符合逻辑。但由于论文中只讲了算法原理，并没有具体的语言实现，所以我使用 Python 根据论文实现了这个抽取器。并分别使用今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻做了测试，发现提取效果非常出色，几乎能够达到100%的准确率。

项目现状

在论文中描述的正文提取基础上，我增加了标题、发布时间和文章作者的自动化探测与提取功能。

目前这个项目是一个非常非常早期的 Demo，发布出来是希望能够尽快得到大家的使用反馈，从而能够更好地有针对性地进行开发。

本文地址：http://syank.xrbh.cn/news/10045.html 迅博思语资讯 http://syank.xrbh.cn/ , 查看更多

更多>同类资讯

0 条相关评论

新闻列表

企业新闻

推荐企业新闻

推荐图文

推荐资讯

点击排行

• 怎么样查询sci文章发表是否被检索呢？	• 公司热点｜开滦集团一矿业发生冒顶事故 6人被困
• 一条用了13年的轮胎会是什么样（内含轮胎店安装	• 埋点分析文档（DRD） - AxureMost
• 帆软&唐隆基：详解供应链新质生产力的五点本质	• 太酷了！哈尔滨一老太热舞视频抖音播放量超2000
• TikTok在美国又出事，张一鸣的全球化迎来梦醒时	• 垃圾分类｜关于有害垃圾，你知道多少呢....
• 小程序开发：用原生还是选框架（wepy／mpvue／u	• 中山退休养老金怎么计算（2023在线计算最新）退