SCI期刊 | 网站地图 周一至周日 8:00-22:30
你的位置:首页 >  互联网 » 正文

网络舆情的采集获取和处理

2021-4-10 | 互联网

 

1我国网络舆情发展现状及分析

 

据第29次中国互联网络发展状况统计显示:截至2011年12月底,中国网民规模突破5亿,达到5.13亿,全年新增网民5580万。

 

互联网普及率较上年底提升4个百分点,达到38.3%。中国手机网民规模达到3.56亿,占整体网民比例为69.3%,较上年底增长5285万人。家庭电脑上网宽带网民规模为3.92亿,占家庭电脑上网网民比例为98.9%。农村网民规模为1.36亿,比2010年增加1113万,占整体网民比例为26.5%。2011年,网民平均每周上网时长为18.7个小时,较2010年同期增加0.4小时。2011年中国网民即时通信使用率上升较快,增至80.9%。同时,许多传统交流沟通类应用的用户规模出现萎缩:电子邮件使用率从2010年的54.6%降至47.9%,用户量减少392万人;论坛/BBS使用率则由32.4%降至28.2%,用户量也略有减少。随着网络的应用普及,网络舆情反映已经逐渐取代了传统的舆情交互途径,成为了社会大众对现实社会的真实情感反映。在当前我国经济快速发展,社会转型的关键时期,随着经济社会文化的发展,社会利益关系更趋多样化、复杂化,人们的思想意识也更加多元化、独立化,往往一些问题一经网络讨论传播,就会立即引起广大网民的关注,继而形成网络舆情热点,并引起网民强烈的反响和激烈的讨论。

 

2网络内容控制的技术方向

 

近年来,国际上开发的网络舆情监控产品种类繁多,最为常见的是以内容分级和过滤为技术方向的产品,其作用类似“电子保安”。麻省理工学院所属W3C(WorldWideWebConsortium)推动了PICS(PlatformforInternetContentSelection)技术标准协议,完整定义了网络分级的检索方式。以PICS为核心的RSAC研发,例如RSACI(RSAContheInternet)分级系统,以网页内容中呈现出性(Sex)、暴力(Violence)、不雅言论(Language)或裸体(Nudity)表现程度等四个维度进行相应管控。作为美国过滤软件的代表CyberPatrol,用户可以对其中监控对象的名单等内容进行修改。政府部门通常也订立阻止用户访问的“互联网网址清单”,以实现不良信息的过滤和筛选。

 

目前,我国参照国际上网络内容控制服务和软件,形成了以下几个网络内容管控的技术方向:

 

1)过滤/屏蔽技术:(1)使用统一资源定位器(URL)列表的服务器端过滤;(2)使用URL列表的客户端过滤;(3)使用文本内容分析的过滤(包括服务器端和客户端)。2)标识和分级系统:(1)第一方标识/分级;(2)第三方标识/分级;(3)互联网内容选择平台(PICS),该平台结合了第三方分级和用户自行分级两种方式。3)年龄认证系统:(1)基于信用卡的年龄认证系统;(2)基于独立发出的ID(Identification)的年龄认证系统。4)新型顶级域名(TLD)/分区:(1)为对未成年人有害的内容建立的新型TLD,如.xxx或.adult,表示定位于该域名的网页上的内容(以及来自于该域名的电子邮件)是对未成年人有害的内容;(2)为无害于未成年人的内容建立新型TLD,如kids等,表示定位于该域名网页上的内容(以及来自于该域名的电子邮件)一般被视为适合所有未成年人。这两项技术虽具可行性,但目前尚未投入使用。作为一种替代性办法,可以建立一种新的次级域名(如.us.kids),这种域名不需要ICANN对现有顶级域名系统做出调整(;3)通过分配一套新的IP地址(新的IP协议——IPv6,尚未广泛应用)建立网上“安全区”,任何在该IP地址范围内的内容可视为“安全区域”或“灰色区域”内容,属于无害信息或既无益也无害于未成年人的信息。5)监控技术:(1)监督和限时技术;(2)实时内容监督/屏蔽方法,可用于不适用过滤技术的网络传播领域。6)安全空间(Greenspaces):这是一种封闭系统,只允许访问系统管理员选定的内容,不能访问系统之外的网站。相关的网络舆情监管部门及行业自律组织应该在考虑公民隐私权、网络言论自由、维护网络秩序等合理因素的基础上,在按比例、遵循相关法律法规的前提下考虑采取一种或几种技术,审核用户的真实注册信息、言论内容的合法性以确保对网络舆情的合理有序监管。

 

3网络舆情采集与获取技术

 

3.1网站定向采集

 

网站定向采集是实时发现互联网上新出现的信息是否包含用户关注的信息,通过周期性地发送HTTP请求,模拟用户网页浏览行为,扫描相关网站URL列表,以实现对关注站点的实时采集,通过链接签名技术和链接比对分析技术来判断所关注的网页是否已进行了信息更新,对出现更新的页面重新下载并存入页面信息库,若无更新,则设定周期进行下一轮的扫描过程。

 

通过页面内容分析技术对下载到的更新页面信息进行分析和处理,若该信息符合信息报警提示的条件,则进行报警提示处理。

 

采集周期和采集URL列表可以由用户自行设定,周期越短,扫描频率越高,对于信息的更新就越快,实时性更强。

 

3.2网络垂直搜索

 

网络垂直搜索可以实现从网络上自动收集与监控专业领域相关的Web网页数据。同时,网络垂直搜索能够更高效地收集相关信息,也能对这些信息的更新做出更及时的响应。

 

垂直搜索引擎仅专注于某一领域和主题,并能够对该网页的主题相关度进行准确预测,优先下载相关度高的网页,从而提高“收获比”和网络带宽利用效率。并且,可以通过聚焦爬虫和监控技术,建立一个大型的网络信息监控系统,包括对官方媒体新闻的Web站点上发布的新闻和代表大众民意的博客文章及在线论坛的监控,实现自动化的收集、存储、整合和处理流程,包括数据的即时可视化处理,这些均可以为开源信息数据的处理提供丰富的数据平台。

 

3.3网络聚焦爬虫

 

网络聚焦爬虫是实现全网数据自动采集的主要工具之一,主要负责从互联网上爬取和下载与主题相关的网络资源。笔者建议在原有普通爬虫基础上,对其功能进行扩充,能够及时、有效地抓取与主题相关的网络资源。聚焦爬虫从组成上可分为领域相关初始URL种子集、页面抓取模块、主题相关性分析模块以及URL查重与页面下载模块等。

Top