新冠舆情分析及对公共交通的影响研究

发布者:陆敏发布时间:2021-05-26浏览次数:12


一、摘要


   本文利用Python爬虫技术获取202011日至731日北京、上海、武汉等10个城市的微博和地铁客流量数据,运用SnowNLP情感分析模型、K-Means文本聚类算法和地理统计分析方法,对新冠疫情网络舆情的演化和城市公共交通出行的影响进行分析。结果显示民众对于新冠肺炎疫情的态度大致经历了五个阶段,总体呈现偏向正面的情绪状态,其中疫情最严重的武汉地区民众的情感得分偏低;公共交通出行客流量受疫情影响严重,123日后各城市日客流量均出现剧降,上海的地铁运营在各城市中恢复速度最快。最后我们建立了民众情感得分和地铁客流量、城市人口数量、城市GDP的长面板数据模型,计量分析结果显示地铁日客流量每上涨1%,民众的情感得分平均提高0.01分,说明地铁日客流量对民众情感的影响显著。


关键词:情感分析;文本聚类;地理统计分析;交通出行


二、研究主要流程


      1. 研究背景

      2. 数据挖掘与分析

      3. 城市交通出行现状分析

      4. 舆情演化对城市交通的影响

      5. 主要结论


三、分析及主要结论


(一)背景概要


201912月底,武汉市疾控中心经过检测发现了一种原因不明的肺炎病例。111日,我国出现首个新冠肺炎患者死亡病例。随后的几个月里,新冠肺炎疫情席卷中华大地。疫情变动成为了每个中国人都紧密关心的话题,随着网络的普及和民主的开放,网络交流软件成为人们了解新冠肺炎疫情,自由发表言论的无门槛平台,“疫情”、“确诊”、“防控”等话题屡屡被推上关注的制高点。城市轨道交通作为民众出行便利、快速、安全的交通工具,具有覆盖面广、站点多、客流密集的特点,更容易引起新冠肺炎疫情的传播和感染。20202月份以来,为了打赢这场“战疫”,党中央和国务院、省市各级政府之间均要求企业延迟复工,并采取了严格的交通管制措施。各省市之间不仅严格封锁和控制外来车辆入内,城市内部也停止大部分公共交通和出租车等车辆的运营。交通运输部门采取不同形式的班次停运和车次调整,以期控制因公共交通出行而引发的病毒交叉感染。


(二)数据挖掘与分析


      1. 数据采集

        本文通过爬取微博新冠肺炎话题下的评论,对其进行情感分析来表现舆情演化。微博共有 “https://weibo.cn”、“https://m.weibo.com”、“https://weibo.com3个站点,由于爬取疫情话题下的评论需要用到高级搜索功能,且 “https://weibo.com”在1天时间内获得的最大微博数量是其余站点的数倍,因此最终本文选择对“https://weibo.com”进行爬取。通过高级搜索功能,以“新冠肺炎”为关键词,对202011日至2020731日间(共计213天)的评论进行爬取,得到了10个城市(北京、南京、重庆、西安、成都、武汉、杭州、广州、郑州)用户对新冠疫情的评论。


      2. 研究内容与结果分析


      (1)微博用户综合情感

综合平均情感得分折线图


由上图可知,11日至731日期间,民众对于新冠肺炎疫情整体持正面态度。从得分的走势来看,民众对新冠肺炎疫情的情感态度大致可以分为五个阶段:

第一阶段为11日至29日,该时期内民众情绪波动较大,但情感得分都在0.5以上。11日“华南海鲜批发市场休市整治”居于微博热议话题中,所以前两日的情感得分有小幅下降。随后“不明原因肺炎未有发现明确人传人证据”等信息缓和了民众的情绪,情感得分逐步上升。123 日,“武汉封城”登上微博热搜榜首,此举措令民众意识到问题严重性。之后农历新年到来,“疫情拐点将出现”等信息缓和了民众的情绪。

第二阶段为29日至229日,该时期内民众情绪略为负面,情感得分一直维持在0.5以下。2月初每日公布的新增感染病例逼近万人,并且各城市陆续采取交通和外出限制,长期封闭在居所的现实环境是导致大众产生负面和恐慌情绪最主要的原因。

第三阶段为31日至613日,此时期内民众情感得分在0.5以上,波动较小。3月国内疫情逐渐好转,且部分地区解封的消息也让民众情绪趋向正面。然而529日的召开的两会没有确定GDP增长的量化指标,这可能导致民众对未来经济发展看淡,情感得分因而大幅下跌。

第四阶段为613日至621日,此时期内民众情绪略为偏向负面,情感得分在0.5周围波动。612日北京发生疫情让情感得分下降到0.5以下,随后情感得分在0.5左右波动。随着疫情迅速受到控制,情感得分也逐渐回升。

第五阶段为621日至731日,此时期内民众情绪波动较大,但情感得分都在0.5以上。7月中旬乌鲁木齐发生疫情时,我国居民对疫情已经以平常心对待,因而情感得分变化不大。同时可以看出,北京作为首都地区,发生疫情对全国民众的情绪影响较大,而其他地区发生疫情对全国民众的情绪影响相对较小。总的来说,民众对于新冠肺炎疫情的态度大致经历了以上五个阶段,大体呈现偏向正面的情绪状态,同时可以推测未来也会持续的趋于正面。


      (2)微博用户城市情感

各城市网民情感得分分布图


武汉、成都、重庆等城市全期时间内的情感得分均值较低,处于0.548—0.566的区间内。可以看出,全期内情感得分较低的城市大多数处于我国的中西部省份,情感得分较低的原因可能是因为这些地区经济发展程度相对低。民众对外交流机会相对少,武汉市作为中西部的交通枢纽,与这些城市的交通联系也更为便捷。

武汉“封城”事件下城市网民情感得分分布图


在这段时期内,新冠肺炎疫情受到大众的广泛关注,其中武汉作为疫情爆发的城市,受疫情影响最严重,市民的情感得分也最低,为0.540。而其他城市在该时期内的情感得分均高于全期内的情感得分,可能是因为该阶段各地市民虽然已经意识到疫情的严重性,但此时正处于农历新年,过新年的快乐氛围远高于人们对疫情的担忧,且除武汉地区的其他市民可能仍未意识到此次疫情的威胁性和严重性。


(3)微博用户关注话题

微博评论词云图


词云图,词频由字体的大小体现。“肺炎”、“新冠”、“疫情”、“确诊”、“病例”等词突出,说明关于此次疫情的话题以新冠肺炎为核心,民众关心每天确诊了多少病例。其次,“市场供应”、“人均收入”、“权益”、“底层”、和“工作岗位”等词语的清晰呈现,体现了市场需求不足导致供给市场滞销亏损,失业现象加重,收入减少影响生活质量,反映了大众对民生的关注。“美国”、“伦敦”和“佛罗里达州”等词语的出现,说明了我国居民对国外疫情的持续关注。


(三)各城市疫情期间民众的交通出行现状


各城市日客流量变化折线图


从该图可以清晰看出,在疫情爆发前的1月上旬,上海、广州、北京作为10个城市中人口最密集的3个城市,地铁开通的线路也最多,地铁客流量明显高于其他7个城市。1月下旬,恰逢春节返乡,新冠肺炎确诊病例开始大量增加,而123日的武汉“封城”事件则是引发媒体与公众对新冠肺炎疫情关注的重要标志。折线图中所反映的地铁客流变化情况也与疫情的发展状况大致趋同,所有城市的地铁客流同时在121日开始呈现坠崖式下跌,于123日跌至谷底。


(四)舆情演化对城市交通出行的影响


民众情感得分与日客流量散点图


由该图可知,随着情感得分的提高,大部分城市的地铁日客流量存在向上递增的趋势,以重庆和西安为例。因此,建立长面板回归模型研究民众情感得分和地铁日客流量的关系。


(五)模型检验和结果分析


      1. 单位根检验


单位根检验结果

单位根检验方法

PS检验

-2.50***

0.01

-9.73***

0.00

费雪式检验

逆卡方变换

88.50***

0.00

171.76***

0.00

逆正态变换

-6.84***

0.00

-11.25***

0.00

逆逻辑变换

-8.15***

0.00

-15.95***

0.00

修正逆卡方变换

11.75***

0.00

25.63***

0.00

注:汇报数值为统计量,括号内为P值,******分别表示在10%5%1%的显著性水平下显著。


单位根检验结果表明,不论是IPS检验还是费雪式检验,日客流量对数和民众的情感得分均在1%的水平上为平稳的时间序列。


      2协整检验


协整检验结果

协整检验方法

统计量

1

Pedroni

ADF t

-18.65***

(0.00)

PP t

-9.64***

(0.00)

Kao

ADF t

-5.71***

(0.00)

注:括号内数值为p值,******分别表示在10%5%1%的显著性水平下显著。

检验结果表明,无论Kao检验还是Pedroni检验,研究变量均通过了1%的显著性检验,可拒绝原假设,即变量间存在长期稳定的协整关系。


      3. 结果分析


回归分析结果

解释变量

估计系数

标准误

t

P

0.01

0.00

4.43

0.00

0.03

0.01

3.85

0.00

-0.04

0.01

-5.14

0.00


0.52

0.05

10.19

0.00

注:******分别表示在1%5%10%水平上显著;圆括号内为各系数对应的t值。


该表表明地铁日客流量每上涨1%,民众的情感得分平均提高0.01分,并且该结果在1%的水平上显著。民众对于疫情情感态度的变化最直接的体现于是否可以外出,是否实现外出自由。隔离封闭的环境与单调的工作生活均会增加民众内心的孤独感,甚至导致抑郁、焦虑,所以交通出行的自由反映在日客流量的上涨将变成情绪释放的闸口。城市地铁日客流量的增加,也侧面反映了民众 “敢出门”的心理,而“敢出门”是百姓对于国家疫情防控工作的信任,对于战胜新冠肺炎疫情更乐观的决心。通过控制变量的分析可以得出城市生产总值每增加1%,民众情感得分会平均提高0.03分;城市总人口每增加1%,居民对新冠肺炎疫情的得分会平均降低0.04GDP反映一个地区的综合经济实力,随着GDP的增加,大众对于疫情的情感会更积极。相反,如果城市居民过多或者说一个城市的居民数量在疫情期间不断上升,那么人口流动的不确定性会带来居民的恐慌情绪,并且人口越密集的城市感染肺炎的概率也会更大,导致情感得分下降。


(六)研究结论

      1. 民众的情感经历了五阶段的起伏,但是大部分时段对新冠肺炎疫情仍持积极态度。

      2.城市地铁日客流量与微博舆情的时段划分相一致。

      3. 交通出行对大众情感产生积极影响,地铁日客流量每上涨1%,民众的情感得分平均提高0.01分。