网络舆情监控分析系统 产品介绍 - 图文(3)

2019-09-01 09:41

网络舆情监测分析系统建议方案

4 方案设计

4.1方案概述

应用方正智思网络舆情监测分析系统,使贵单位能够实现一定范围内(省内、省外)的网站信息发布进行全面掌控。方正智思能够对境内互联网信息(新闻、论坛等)实时监测、采集、内容提取及排重;并且对获取的信息进行全面检索、主题检测、专题聚焦、相关信息推荐、主题演化分析、时间趋势分析、话题传播分析;按照新闻单位业务需求定制信息分类规则;为用户辅助编辑提供信息服务,如信息预警、自动形成网络信息报告、追踪已发现的信息焦点等。

? 网络新闻自动获取

通过网络雷达技术,自动获取网络新闻,并且提取新闻的作者、时间、标题、正文等数据。 ? 网络论坛自动获取

通过论坛获取模块,自动抓取论坛的发贴。并且提取帖子的发贴人名称,发贴时间,主贴,回贴人名称,回贴时间,回贴内容,论坛贴子的人气和热度。

? 智能语言理解和分析处理

互联网信息资讯的分析工作分为对单一信息文档的分析和对文档集合的分析处理。对于单文档的加工,本系统中应用知识管理技术,实现信息的自动消重过滤、自动分类、自动摘要提取与自动关键词提取。 ? 互联网信息搜索

系统支持全文信息检索,检索结果按照相关度排序。系统支持模糊检索,例如:同音词检索、同意词检索。系统支持“以文找文”的方式,通过输入单篇情报信息,检索内容相似的互联网新闻或论坛帖子。

另外,本系统采用界面整和的方式集成通用的网络搜索引擎。

11 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案 4.2系统架构 舆 情 编 辑 普通用户 论坛分析 相关 推荐 自动 聚类 焦点跟踪 信息 分类 联动接口 决策支持 智能 报告 信息服务新闻监测 全文 检索 业务流程 内容管理平台 信息处理自动消重 自动分类 数字化采集 格式转换 标引 上载 自动摘要 自然语言处理技术文本挖掘技术 信息采集RDBM互联网站 互联网站 论坛BBS 舆情库 RDBM 敏感词库 RDBM规则库 网络舆情监测分析系统架构

网络舆情监测分析系统架构:

系统总体架构由多层结构组成,采用最新的基于SOA架构的应用集成技术。 最底层为数据管理层,在硬件环境基础上,采用关系型数据库,建立信息管理平台数据源,包括建立舆情库、敏感词库和规则库。管理各类信息数据,采用成型的内容管理技术、知识管理技术、发布技术等通用技术,建立业务应用的基础平台。

系统通过建立舆情库,匹配敏感词和规则库实现对互联网信息(新闻、论坛等)的实时监测、采集;结合系统自身的内容管理平台,对采集的信息进行自动分类聚类、自动消重、主题检测、专题聚焦等;将采集并分析整理后的信息直接为用户或为用户辅助编辑提供信息服务,如自动形成舆情信息简报、追踪已发现的舆论焦点等。

12 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

系统提供和省级单位舆情监测分析系统联动接口,必要时,可以提供信息的上传和共享。

4.3系统功能

4.3.1 信息采集

根据用户指定的互联网信息源或信息内容的条件描述,利用信息采集技术在互联网采集相关信息,并充分考虑为满足系统将来发展所需采集内部数据提供灵活的扩展性。

本系统采用定向搜集方法,针对与日常业务具有密切关系的网站进行定期监控,使这类网站的任何新的信息能快速及时的被采集。 4.3.1.1 定向信息采集

实现互联网定向信息的搜索、分析和网站的深层挖掘。 定向信息搜索采用客户端配置+服务端的工作模式。

? 可视化属性配置

客户端是采用可视化的配置工具。 ? 特定栏目内容抓取

13 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

针对频道级网页中某个特定栏目进行高级设置。 ? 网络论坛帖子抓取

获取所在网站及版面、帖子作者、发贴时间、回复数、点击数(人气)、标题、内容。 ? 自动网站用户登陆

对于需要订购和登陆的网站,提供配置项支持。 ? 动态和静态网页下载

能够采集目前流行的多种动态和静态网页。 ? 多层下载

支持多层下载。 ? 多线程并发搜索下载

采用多线程并发搜索下载提高搜索下载速度。 ? 智能URL选取

系统根据URL特征及所处网页内容智能判断URL所指内容的有效性,过滤广告和其他无关信息。 ? 支持断点继续抓取

如果下载过程意外终止,抓取服务器在下次启动后,自动继续下载完毕。

4.3.1.2 网页内容提取

网页中通常包含广告、版权信息、脚本描述语言等内容。网页内容智能提取技术能有效地提取网页中的有效信息,区分网页中的标题、正文等信息项,并对内容具有连续性的多个网页内容进行自动合并、网络论坛信息自动提取等。 ? 网页正文提取

自动提取正文就是从一个网页混乱的结构中自动分析并提出正文的部分。

? 多字符集编码转换

一个网站的字符集与这个网站的工作人员采用的系统和网站建立时的设计等因素有关。常见的字符集有gb2132、UTF8等。一些国内的网站为了

14 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440

网络舆情监测分析系统建议方案

支持全球访问,采用Unicode编码方式,系统自动识别并转换。 ? 多种格式文件下载保存

支持多种文档格式,支持下载图片等多媒体文件。

4.3.1.3 全网监控

元搜索引擎(Meta-search engine)是在搜索引擎基础上建立的可以同时查询多个搜索引擎的WWW站点,它们集成了不同性能和不同风格的搜索引擎并发展了一些新的查询功能。利用该功能可实现基于条件的全互联网搜索,大大提高互联网内容采集的针对性和采集范围的广度。

针对本项目的需求,我们推荐采用通用的中文搜索引擎作为后台,来实现全网监控的目的。本系统元搜索采用并行式发送搜索指令,支持自定义选项,可扩展和减少后台引擎的数目,限定反馈结果时间,支持高级检索功能。

元搜索在本系统中提供两种应用:信息收集和互联网信息检索

? 信息收集:根据应用目标数据管理人员或编辑人员通过定义搜索条件(基于关

键词的高级检索条件)。系统定期进行元搜索,将采集到的信息进行自动过滤、消重、分类后进入本系统;

? 互联网信息检索:编辑人员可利用本系统提供的元搜索进行互联网信息的实

时检索,系统将各搜索引擎返回的结果进行消重与分类后,在一个界面分类呈现搜索结果。

本系统中,在进行内容抓取之前先进行URL的排重,自动对多个搜索引擎提供的检索结果进行重新分析整理,排除重复URL,从而既较少网络流量又避免了信息库中出现重复内容。

4.3.2 智能分析

15 北京方正电子政务技术有限公司

地址:北京市海淀区成府路298号中关村方正大厦0428室

TEL:(010)82529034 FAX:(010)82529440


网络舆情监控分析系统 产品介绍 - 图文(3).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:上海市杨浦区届高三化学4月质量调研(二模)试题

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: