作品赏析-开发组一等奖:AI+GIS实现网络新闻舆情地理分布可视化

发布时间:2020 年 03 月 23 日  
导读:作品名称:AINewsSuperMap——新闻情绪信息可视化与管理平台 参赛学校:武汉大学 团队组员:丁家祺、岳远紊、胡森、楚尔轩 指导老师:蔡忠亮、费腾 随着人工智能技术的发展,自然语言处理技术在业界得到了广泛应用。同时,新闻平台的评论数据具有时效性强、数据量大、自带地理位置标签等特点,是一个观察舆情地理分布的切入口。

  作品名称:AINewsSuperMap——新闻情绪信息可视化与管理平台

  参赛学校:武汉大学

  团队组员:丁家祺、岳远紊、胡森、楚尔轩

  指导老师:蔡忠亮、费腾

  

       随着人工智能技术的发展,自然语言处理技术在业界得到了广泛应用。同时,新闻平台的评论数据具有时效性强、数据量大、自带地理位置标签等特点,是一个观察舆情地理分布的切入口。我们认为,将其与地理信息系统相结合,是一个全新、有趣的研究方向。

  作品希望能够结合AI自然语言处理与GIS技术,实现新闻文本情绪信息的可视化与管理,从而助力舆情监测与社会感知。在愈发强大的AI能力的支撑下,我们利用超图SuperMap iClient JavaScript 10i,结合Python爬虫技术、AI自然语言处理技术,在JAVA web SSM框架下完成了作品的开发。

  该作品试图解决三类人群的痛点与需求:对于政府用户,我们希望能够辅助相关部门监测网络空间的舆情态势,提供来自地理视角的洞见;对于商业用户,我们希望能为内容提供商发掘新的增长模式、优化内容组织;对于个人用户,我们希望能够打造一个全新的资讯入口,让用户体验AI,发现AI。

  作品功能

  要实现完整的舆情监测分析功能,需要复杂、科学的架构。根据不同业务需求出发,系统设计了作为舆情监测分析系统所需要的基本组织架构,如下图所示。在此基础上,实现了以下功能。

 

 项目技术选型

 

 项目基本组织架构

  •数据获取

  作品的数据源主要来自新浪微博、新浪新闻、网易新闻、中新网,通过API获取或爬虫爬取到以后,先经自然语言处理,在提取到其地址、情绪、摘要之后,再存储到数据库中,经过过滤获得了半年跨度的新闻及评论信息十四余万条。数据获取程序能够定时爬取并自动处理,从而不断更新数据库,保证数据源的时效性,达到实时监测的目的。

  •文本信息提取

  文本信息提取既被用于后台数据处理,也作为网页的功能在前端展示。本模块集成了AI新闻摘要提取API,情绪倾向分析API,实现了文本的摘要提取与情绪倾向识别功能。同时,对于地址提取接口,针对新闻文本文字长、地址信息往往较为模糊的特点,我们利用AI文本地址提取功能,SuperMap iClient地址匹配,以及小组开发的分词辅助,实现了地址的提取。用户可在这一页面输入自定义文本进行解析,体验系统处理数据的效果。

  •数据可视化

  

可视化模块截图

  作品的可视化模块集成了多个子页面,提供了动态热门文本、图片信息展示、专题数据统计图表、专题数据地理可视化以及结构连接图、词云等。在热榜页面,可以了解到当下人们最关心的话题、最感兴趣的新闻图片;在统计概览页面,我们制作了各类柱状图、条形图、饼图、雷达图等,对诸如分城情绪排名等专题信息进行展示;在地图页面,用户能够直观地观察评论数量、评论情绪、新闻与评论对应关系在地理空间上的分布情况;在结构连接图页面,用户能够按行政区划查看各区域的最受关注新闻;在词云页面,新闻标题被按关注度赋以不同的字体大小展示,展示其相对受关注程度。不同的可视化形式,能够让用户从不同的视角认知数据。

  •数据管理

  系统的管理模块实现了基本的数据管理功能,能够实时地显示数据分布,并进行增加、删除、查询、修改,还集成了导航、天气等其他功能。这一功能按设想只开放给系统的管理人员,通过密码登陆进入系统之后,用户能够对数据进行编辑。为了让用户直观了解到目前数据库中数据的空间与统计特征,我们设计了地图及统计图表作为辅助。对于感兴趣的数据点,能够点击查看其详细信息,如有需要可以提交更改到数据库、生成导航路径等。这一部分功能从管理者的角度出发,实现了基本的数据概览及维护功能。

  亮点及提升方向

  作品的主要亮点有四:一是稳健多源的数据爬取及处理。考虑到数据源、数据量对展示结果有着较大的影响,作品利用爬虫技术采集到了多个新闻及社交平台的大量数据以供试验,应用多种反爬手段,能够保证数据的稳健获取。

  二是集成多方的新闻文本处理。作品利用人工智能API,实现了对新闻文本情绪、地址及摘要的提取。同时,在实际应用中,考虑到新闻文本文字较长、地名词频率较低、范围较为模糊等特点,作品设计了数据预处理过程,首先对文本进行分词处理,随后对省市级地名进行匹配,并以此加权提取重点段落,结合SuperMap iClient JavaScript 10i地址匹配功能,提高了提取成功率。

  三是丰富动态的地理信息可视化展示。作品针对新闻评论情绪数据,设计了多个子页面,展示其统计与地理信息。四是功能完备的WebGIS系统。作品实现了基本的数据管理功能,能够在线对数据进行管理操作。

  作品还有许多可以完善提升之处:一是采集更为广泛的信息源,以及更为丰富的信息类型如社交网络发帖、图片、街景等;二是提高数据定位级别,采用位置更为精确的情绪数据;三是提升可视化交互体验,丰富管理监测功能。

版权所有© 1997-2019 中国科学院地理信息产业发展中心 《超图通讯》编辑部