376
阅读
5
评论
分享
综述
谷歌流感预测--大数据在公共卫生领域的尝试
中华预防医学杂志, 2015,49(06): 581-584. DOI: 10.3760/cma.j.issn.0253-9624.2015.06.026
摘要

谷歌流感预测(Google Flu Trends,GFT)是大数据在公共卫生领域的首次尝试,自2009年上线以来,受到了各方的广泛关注。上线初期,GFT预测结果与美国CDC数据高度相关,但随后GFT未能预测到2009年甲流大流行,并在2012-2014年季度持续高估了美国流感的流行态势。自2009年以来,GFT模型经过3次升级,其预测偏差得到了有效纠正。本文综述了GFT模型预测流感的原理,模型升级的策略,及其对公共卫生的意义。

引用本文: 邹晓辉, 朱闻斐, 杨磊, 等.  谷歌流感预测--大数据在公共卫生领域的尝试 [J]. 中华预防医学杂志,2015,49( 6 ): 581-584. DOI: 10.3760/cma.j.issn.0253-9624.2015.06.026
正文
作者信息
基金  关键词  主题词
English Abstract
评论
阅读 376 引用 0
相关资源
视频 0 论文 0 大综述 0
以下内容和版式版权归属中华医学会,未经授权不得转载 ×

21世纪是大数据的时代,大数据也称巨量数据,指利用常规工具无法获得、储存、处理和分析的数据集合,常常需要一系列的技术和手段整合才能挖掘其内部价值,具有多样性、复杂性和数据量庞大的特点[1]。这种定义非常主观,因为你无法定义数据量超过多少即为大数据。我们只能确定,随着技术的进步,大数据包含的内容也会不断扩大。

大数据无疑是下一轮创新、竞争和生产力进步的前沿阵地。在亚马逊、沃尔玛、特斯科等巨头相继通过实例证明了大数据的威力后[1],作为互联网时代王者的谷歌公司当然不甘落后,在2008年11月上线了"谷歌流感预测 (Google Flu Trends, GFT)"。谷歌公司关于GFT的论文发表在国际著名期刊《自然》(Nature)上,迄今为止该论文已被引用了1 000多次[2]

一、GFT的原理

GFT的运行原理很简单:如果一个人患了流感,那么他很可能上网搜索流感相关信息。通过监测一个地区某些与流感相关检索词的数量,就有可能估计出该地区流感流行的情况。当然,并不是每个检索流感的人都会患流感,但是将所有的流感相关的检索词汇总后,就会发现有一些词汇在流感流行的高峰期检索总数目明显升高,通过计算这些词汇被检索的频率,就有可能获得该地区流感流行的趋势[3]

GFT据此建立了模型来预测某个地区居民流感样病例(Influenza-like illness, ILI)相关的就诊比例,即ILI相关的就诊比例。自变量为相同地区ILI相关的检索词被检索的频率,对该地区ILI就诊概率与ILI相关检索词的检索率取对数并拟合出一个线性模型[2]。以美国CDC流感监测网络数据作为模型中因变量,谷歌对其数据库中的5 000万个常用检索词分别进行拟合,并根据拟合的效果打分,然后由一种自动选择程序根据检索词得分的高低自动排序。为了确定哪些检索词应该被GFT模型所采纳和作为其评估ILI流行的依据,谷歌依次取前N个打分最高的检索词的搜索次数的总和来评估模型预测ILI流行的能力,将预测的结果与美国CDC 2003至2007年监测到结果相比较,结果发现N=45时,模型预测结果与美国CDC ILI监测结果最为相似。因此,谷歌将这45个检索词作为GFT模型监测的对象,并依据他们的检索量来预测ILI的流行趋势(图1)。依据该预测模型,GFT可以在1 d之后给出每周的流感流行报告,这比美国CDC的ILI官方报告早了10~14 d。

图1
对谷歌流感预测包含检索词的评估

谷歌从5000万个常用检索词中筛选出了100个检索频率与ILI发病率最为相关的检索词,并根据其相关性从高到低排列,然后依次计算前N个检索词检索频率与ILI发病率的平均相关性。在取前45个检索词为监测对象时,其检索频率与ILI发病率相关性最高。因此,谷歌将这45个检索词的检索频率作为ILI预测的依据[2]

图1
对谷歌流感预测包含检索词的评估
二、GFT预测ILI的准确性

GFT模型在2008年季度预测的结果与美国CDC ILI监测结果高度相关,其相关系数达到了0.97[2]。因此,谷歌在2008年11月正式上线了GFT(GFT 1.0),在开始运行的几个月里,GFT取得了巨大的成功,并被推广到其他28个国家。有研究显示,GFT在澳大利亚[4]和新西兰[5]的预测结果与当地官方检测结果保持了相当高的相关性。GFT在预测ILI上的可靠表现得到了美国有线电视新闻网(CNN)、《纽约时报》和《华尔街日报》的赞赏,GFT被认为是"一个公司因为有好的想法就做了一件精彩的事" [6]

三、GFT预测流感大流行的局限性

2009年甲型H1N1流感的到来终结了GFT此前获得的荣誉[7]。GFT上线时,就有专家认为GFT模型是基于季节性流感的数据建立的,其预测流感大流行的能力存在疑问,因为在一个新型流感暴发或者造成全球流行时,人们检索的术语可能会发生变化,如甲型H1N1流感流行时,人们可能更多的检索"猪流感"等非常规术语。在此情况下,GFT是否能及时监测到流感大流行值得商榷。果然,在甲型H1N1流感流行的第一波,即2009年4月至8月,尽管GFT预测结果与美国CDC ILI监测结果在国家水平上具有很高的相关性,但其预测的甲型H1N1流感发生率比美国CDC监测结果低了30~40倍,而且这种误差在地区和城市水平上进一步拉大。换句话说,GFT在国家、地区、城市三个水平上未监测到甲型H1N1流感春季大流行的任何踪迹。

四、GFT模型的升级

未监测到21世纪第一次流感大流行的事实将GFT拉下了膜拜的神坛。谷歌决定对GFT模型做全面的升级(GFT 2.0)[8]。首先,谷歌将监测的检索词数目从45个增加到160个,去除了大量的非特异性词汇,使检索总量降到原模型的1/4。其次,检索词类别也进行了较大的调整。GFT 2.0的检索词直接与流感有关,而GFT 1.0的检索词主要与流感引起的症状有关,如"流感并发症"和"流感并发症症状"类的检索词占了GFT 1.0检索量的48%,却只占GFT 2.0体量的17%;此外,72%的GFT 2.0检索词包含"流感",而该类检索词只占GFT 1.0检索词数目的14%。第三,除了美国CDC 2003-2007年的ILI监测数据,GFT 2.0还参考了甲型H1N1流感第一波流行(2009年3月29日至9月13日)期间的ILI监测数据。

全新的GFT 2.0表现显著提升,自2009年9月上线以后,其预测结果与美国CDC监测结果非常相似,尽管在地区和城市水平稍有偏差[7],这段时间也是甲型H1N1流感病例高发的时期。GFT 2.0的稳健表现一直持续到2012年度,其预测结果与美国CDC ILI监测结果高度相关。

然而,GFT 2.0在接下来的两年里持续高估了美国流感流行的态势。在2012-2013年流感流行季度,GFT 2.0极大的高估了流感疫情的起始时间和流行强度,其在国家、地区和地方三个水平上预测的结果分别是美国CDC监测结果的268%、208%、296%[7]。有研究显示,在2011年8月到2013年9月这108周中,有100周中GFT 2.0预测结果偏高[9]

GFT 2.0在2012-2013年度预测结果偏高,使谷歌公司决定启动第三次模型升级(GFT 3.0)。GFT工程师认为2012-2013年度媒体对流感的过度关注是GFT 2.0预测偏差的原因,因此,他们在GFT 2.0的基础上做了两处改变,即弱化异常的媒体关注热点和使用弹性网络(ElasticNet)的方法来预测ILI(先前是基于回归的方法进行预测)[10]

GFT 3.0于2013年10月正式启用。与GFT 2.0相比,GFT 3.0明显的降低了其预测的ILI的强度,这也是对GFT 2.0持续高估ILI的反应。对同时存在GFT 2.0和GFT 3.0预测结果的6周数据比较显示,GFT 3.0的预测结果比GFT 2.0降低了12.4%。尽管GFT 3.0明显调低了其预测的ILI强度,其预测结果仍然比美国CDC高出了30%,在GFT 3.0启用后的31周中,有23周其预测结果偏高[10]

2014年10月31日,谷歌的高级软件工程师在其博客上宣布谷歌对GFT模型进行了新的升级,用来预测2014- 2015年季度流感流行态势[11]。先前有研究表明,将美国CDC最新的监测数据与GFT模型综合起来,可以显著降低GFT预测的偏差[12]。本次升级后的GFT模型在预测时会实时纳入美国CDC的监测数据,而不是像旧模型那样只用历史数据来校正模型和确立基准线[13]。谷歌的工程师承诺将发表论文来说明本次模型升级的内容。新的GFT模型表现如何,我们将拭目以待。

五、GFT预测出现偏差的原因

GFT 1.0未能检测到甲型H1N1流感的第一波流行是GFT受到的第一个打击,其原因是多方面的[8]。首先,GFT 1.0的模型是基于2003-2007年美国CDC ILI检测数据建立的,该段时期未发生流感大流行,其监测结果主要是季节性流感的流行情况,发生高峰期主要在秋、冬季节,发病人群主要是老人和儿童。而甲型H1N1流感作为大流行流感,其流行特点与季节性流感显著不同。甲型H1N1流感开始暴发于2009年4月,是传统意义上的流感低发期;与季节性流感不同,甲型H1N1流感感染者大部分是青壮年。这些特点必然会引起公众检索行为的变化。如在冬季我们出现呼吸道症状时,一般会想到可能是由流感引起的;而在夏季,我们不一定会立刻怀疑得了流感;在这种情况下,流感相关词汇的检索量可能会降低。事实上,在甲型H1N1流感流行第一波,GFT 1.0的检索总量是比预期要低,这也是GFT 1.0预测结果偏低的直接原因。其次,GFT 1.0的预测结果是通过美国CDC ILI监测结果来评估的。有证据显示,在甲型H1N1流感流行的第一波,门诊病例ILI的比例(61%)高于第二波(43%),这可能与在疫情初期人们更加敏感,有轻微症状时也会去就诊,这有可能造成CDC ILI数据比实际ILI发生率偏高,进而造成GFT预测结果的偏低[14,15]。第三,在一个新型流感流行的初期,一些"非常规"的与疫情相关的词汇有可能得到大量检索。如甲型H1N1流感流行期间,"猪流感"等词汇被大量检索,但这类词汇的检索趋势与先前季节性流感流行的趋势并不相关,因而并未计入GFT 1.0模型,导致了GFT预测结果的偏差。认识到GFT 1.0存在的问题后,谷歌分别在2009年9月(GFT 2.0)和2013年10月(GFT 3.0)对GFT进行了升级。但GFT 2.0和GFT 3.0持续高估了近两年美国流感流行程度,尽管GFT 3.0预测偏差较GFT 2.0低。有研究认为2012-2013年媒体对流感的高涨报道是造成GFT预测过高的原因,包括2013年1月纽约州因流感活动加强而宣布进入公共卫生紧急状态等事件,促使大量未患流感的人检索流感相关词汇[16]。媒体报道会影响GFT预测结果,但媒体在2005-2006年对H5N1禽流感和在2009年对甲型H1N1流感的报道程度更甚于2012- 2013年,而GFT预测结果并未偏高。因此,造成GFT预测过高另有其他原因。造成GFT 2.0及GFT 3.0预测过高最有可能原因是谷歌搜索算法本身[9]。谷歌掌握着互联网领域最先进的搜索技术,其算法并不是一成不变的。谷歌的工程师不断修正其算法以提供更好的商业服务。谷歌的商业模式包括两部分,一方面为用户快速提供有用的信息,另一方面,获得更多的广告收入,谷歌的搜索算法也是根据这两个目的进行改进,而这势必会影响到某些检索词"自发的"检索量。如谷歌的"推荐搜索",是根据其他人的搜索记录推荐用户某些检索词,这种"推荐搜索"的服务会增加某些检索词非自发的检索量增加,对GFT预测产生不利影响。谷歌在第二次模型升级后将关键词数目提高到了160个,加之谷歌的关键词提示搜索,会引导人们使用相似的检索词,导致某些检索词的搜索次数呈指数升高,从而导致预测结果偏高。

六、GFT对公共卫生的启示

GFT是大数据应用领域的一次耀眼尝试,使大数据在公共卫生领域真正从理论走向实际,因而从上线之日起就获得了巨大关注。尽管在最近两年其预测结果出现偏差,但总体预测结果与美国CDC ILI监测结果相关。随着模型的不断升级,GFT预测偏差得到了明显的控制,因此在大数据时代,技术的进步总会不断地解决层出不穷的问题。GFT预测流感的成就也促使其他信息巨头尝试利用自己掌握的数据来预测流感,如Twitter通过监测患者抱怨疾病的信息来预测疾病的发生情况,其对流感的预测结果与传统方法监测到结果高度相关[17];又如维基百科通过监测流感相关网页每天浏览的比率来预测美国ILI流行水平,该模型在媒体热点时期和季节性流感严重流行期均表现良好[18]。此外,在移动互联网上,谷歌也有新的动作,在2014年6月的谷歌开发者年度会议上,谷歌发布了GoogleFit应用平台[19]。该平台可使手机上的APP具备监测用户的健康数据的能力,甚至根据监测结果给用户提出针对性的建议。作为谷歌公司的老对手,苹果公司在早些时候宣布扩展其HealthKit健康平台,该平台能将用户的健康和身体数据直接传送至医疗中心的数据库,利用大数据评估用户的健康指标[19]

大数据时代有可能将彻底改变我们的传染病监测模式,例如当某种传染病开始暴发时,及早发现并采取干预措施非常重要,传统的监测网络依靠报告和汇总,其速度远远不能满足快速反应的需要;而大数据网络对疾病的监测几乎是实时的,像GFT这类监测工具能在一天后评估某地区疾病流行情况,因此这种全面快速的监测方式将使公共卫生监控的变得更加灵敏。又比如传统的监测方法仅能覆盖一个国家或者一个地区的若干国家,而类似GFT这样的公共卫生监测工具能监测到全球大部分地区,为全球防控提供数据。如大数据收集和分析系统Healthmap,通过收集媒体、政府部门、学术期刊、智能手机应用上面的传染病信息来监测和显示全球的传染病暴发情况。Healthmap在2014年3月便监测到关于西非出血热的报道,随后被WHO鉴定为埃博拉出血热[20]

当然,大数据在公共卫生领域的应用还需要解决很多关键问题,首先是"大数据傲慢"问题[9]。"大数据傲慢"指潜意识里认为大数据可以替代,而不是补充,传统的数据收集和分析方法"大数据傲慢"是一种错误的思维方式,误认为大数据模式算出的"统计学相关性"能直接取代事物之间真实的因果和联系,从而过度应用和相信这种技术。换言之,即认为大数据可以解决一切数据收集和分析的问题,传统的方法已落后、过时,应该予以摒弃。然而事实上,数据量上的大并不意味着可以忽略数据测量的基础问题,以及数据的有效性、可靠性和独立性。另外越是大数据时代,越是有可能带来垄断,因为只有那些特别强大的公司才会在大数据时代有所作为,但这带来的直接后果就是公众一直担心这些大数据及分析方法掌握在大公司手上是否合适。此外,这些公司对个人数据的收集、使用及存储的法律依据,是否侵犯了个人隐私、数据所有权等依然存在争议。谷歌公司一直拒绝公布GFT所采纳的检索词,也未说明GFT数据是如何收集和采用的,因此其他科学家也无法重复GFT预测结果[10]。GFT数据上的不透明也是谷歌公司最受诟病的地方,正如《哈佛商业评论》所说的那样,"如果一个公司想参与科学事业,那么他应该表现的像个科学家" [21]

但是大数据无疑是未来发展的趋势,大数据在公共卫生领域的应用必然会改变现在疫病防控被动的局面[22]。中国拥有世界上最多的网民数量,每时每刻都产生海量的数据,是大数据分析取之不尽的资源。2014年4月,百度宣布和中国CDC在流感预测上开展合作,这是大数据在中国公共卫生领域发挥作用的一个不错的开始。随着技术的进步,大数据在公共卫生上的应用也会越来越"科幻"。正如拉里·布莱恩(Larry Brilliant)在GFT刚上线时畅想的愿景: "我仿佛看到了一个非洲的孩子上网查看他的街道正在暴发霍乱,我还看到柬埔寨的居民在网络上发现他们的街道正在发生麻风病。"

参考文献
[1]
ManyikaJ, ChuiM, BrownB, et al. Big data:the next frontier for innovation, competition, and productivity[EB/OL]. [2014-12-12]. http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation.
[2]
GinsbergJ, MohebbiMH, PatelRS, et al. Detecting influenza epidemics using search engine query data[J]. Nature, 2009, 457(7232): 1012-1014.
[3]
Google. How does this work?[EB/OL]. [2014-12-12]. https://www.google.org/flutrends/about/how.html.
[4]
KellyH, GrantK. Interim analysis of pandemic influenza (H1N1) 2009 in Australia: surveillance trends, age of infection and effectiveness of seasonal vaccination[J]. Euro Surveill, 2009, 14(31): 19288.
[5]
WilsonN, MasonK, TobiasM, et al. Interpreting Google flu trends data for pandemic H1N1 influenza: the New Zealand experience[J]. Euro Surveill, 2009, 14(44): 19386.
[7]
OlsonDR, KontyKJ, PaladiniM, et al. Reassessing Google Flu Trends data for detection of seasonal and pandemic influenza: a comparative epidemiological study at three geographic scales[J]. PLoS Comput Biol, 2013, 9(10): e1003256.
[8]
CookS, ConradC, FowlkesAL, et al. Assessing Google flu trends performance in the United States during the 2009 influenza virus A (H1N1) pandemic[J]. PLoS One, 2011, 6(8): e23610.
[9]
LazerD, KennedyR, KingG, et al. Big data. The parable of Google flu:traps in big data analysis[J]. Science, 2014, 343(6176): 1203-1205.
[10]
DavidL, RyanK, AlessandroV, et al. Google flu trends still appears sick:an evaluation of the 2013- 2014 flu season (March 13,2014)[EB/OL]. [2014-12-12]. http://ssrn.com/abstract=2408560.
[11]
StefansenC. Google flu trends gets a brand new engine[EB/OL]. [2014-12-12]. http://googleresearch.blogspot.com/2014/10/google-flu-trends-gets-brand-new-engine.html.
[12]
PreisT, MoatHS. Adaptive nowcasting of influenza outbreaks using Google searches[EB/OL]. [2014-12-12]. http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2518086.
[13]
HarrisD. In the name of accuracy, Google retools its flu trends model[EB/OL]. [2014-12-12]. https://gigaom.com/2014/10/31/in-the-name-of-accuracy-google-retools-its-flu-trends-model/.
[14]
ReedC, AnguloFJ, BiggerstaffM, et al. Influenza - like illness in the community during the emergence of 2009 pandemic influenza A(H1N1) - - survey of 10 states, April 2009[J]. Clin Infect Dis, 2011, 52(Suppl 1): S90-93.
[15]
Center for Disease Control. Information on 2009 H1N1 impact by race and ethnicity[EB/OL]. [2014-12-12]. http://www.cdc.gov/h1n1flu/.
[16]
ButlerD. When Google got flu wrong[J]. Nature, 2103, 494(7436): 155-156.
[17]
VelardiP, StiloG, TozziAE, et al. Twitter mining for fine - grained syndromic surveillance[J]. Artif Intell Med, 2014, 61(3): 153-163.
[18]
McIverDJ, BrownsteinJS. Wikipedia usage estimates prevalence of influenza - like illness in the United States in near real-time[J]. PLoS Comput Biol, 2014, 10(4): e1003581.
[19]
MarburyD. Is GoogleFit's goal to make doctor visits obsolete?[EB/OL]. [2014-12-12]. http://medicaleconomics.modernmedicine.com/medical-economics/content/tags/apple/googlefit-s-goal-make-doctor-visits-obsolete.
[20]
Wikipedia. HealthMap[EB/OL]. [2014-12-12]. http://en.wikipedia.org/wiki/HealthMap.
[21]
FungK. Google flu trends' failure shows good data>big data[EB/OL]. [2014-12-12]. http://blogs.hbr.org/2014/03/google-flu-trends-failure-shows-good-data-big-data/.
[22]
杨瑞馥. 大数据时代的预防医学研究:数字化预防医学[J]. 中华预防医学杂志, 2014, 48(3): 1-4.
 
 
关键词
主题词
公共卫生
预测
大数据
谷歌流感预测