社会创业家>《社会创业家》杂志>2014年第03/04期 总第63期>互动台>解码公益大数据(续)——兼答读者来信

解码公益大数据(续)——兼答读者来信

文/任珏

关于大数据的纷争

关于大数据的纷争,主要是两方面:一、技术讨论,主要纠结于到底数据有多大、到底哪一种计算方法才能更好地把收集、整理出来;二、方法论的讨论,主要纠结于,大数据收集、整理、分析过程中研究者与产生数据的行为人之间的社会关系,以及人和数据之间的人机关系。在上期刊登的《“解码”公益大数据》一文中,我并非如读者来信中所说“反映出来的深刻问题是公益组织只有加强自身能力建设,才能更好地理解大数据对其业务的意义”,公益组织已经或者正在“加强”的自身能力建设太多,不差大数据这一项。而我讲的,实际上是大数据的方法论问题。

另外读者认为我们的20万微博数据都是“静态”的,我认为是不了解那时我们雅安地震信息救灾团队的工作模式和工作状态使然。当时,我们在某个时段集中工作的核心志愿者不超过10个人,在数千条微博、好几个微信群同步收集信息。在微信群每秒钟都数十条、每条数百字的微信信息如潮水一般在眼前奔腾而过,同时仍然要手工处理20万的微博数据,这样的数据大不大可能不太好说,但工作量肯定是大的。

至于说到“如何从这些不同人、不同地方发出的微博中获得能够指导救灾工作的有效信息?”,可以请读者详读我的文章《信息救灾的关键问题:以雅安地震为例》,其中非常详细分析了地震信息救灾在信息收集、分拣、核实、分析等方面的痛点,并根据雅安信息救灾的实际操作,提出相应的解决办法。

“谋定而后动”是否可行?

在上期杂志讨论美国智库使用大数据方法进行筹款的文章中,笔者说:“谋定而后动”,这在日常的公益运营中,的确没问题,可以根据现有的及新收集到的数据,提炼影响因子,进而使用某种算法,实现对某行为人的在未来某个时间节点上的行为进行预估。这种预估的有效性,建立在建模阶段是否将相关因子都考虑在内,并有效根据各因子之间的关系进行建模。加之是对未来某时刻的行为预测,则需要从建模阶段开始至该时刻,相关的影响因子及关系均不发生概率有效性之外的改变,才能保证这样的预测是有效的。但是这种情况如果放在救灾这种相关影响因子多、变化速度快及相互关系复杂的情况,运筹学往往会显得捉襟见肘。也正是在救灾的紧急状况下,雅安信息救灾团队虽然无法根据现有的不断增长、变化的数据进行数据建模,只能靠人手收集、分拣和分析相关数据,但也只有这样,才能实现在灾民和救援团队之间的实现“一对一”的定向信息决策服务。

在雅安地震的信息救灾过程中,我收到一个媒体朋友的爆料,说一位来自外地的某报记者在雅安发现一个村子没有足够的帐篷,我核对了该记者微博上发的图片,并电话联系该记者,也从记者的电话里听到了妇女们求救的哭号。但是直到雅安救灾结束后很长时间,我才从驻扎雅安的一位救灾机构负责人那里得知,该记者因为跨省采访,在和我电话后不久,就被相关机构给“遣返”了,而遣返这件事,该记者压根就没提。事实上,当时我也的确寻找了在雅安一线的不同团队进行第三方的信息核实。如果当时我知道记者被遣返这件事,我可以更加迅速地评估该信息的有效性及时效性,除了会寻找第三方的信息源之外,也会请当地救援机构接手跟进该村的后续工作,但因为该记者压根没提这茬,所以造成了信息对接的空档,如果不是救灾机构的朋友事后说明,在当时完全想不到会有这么一种可能性。所以说,在这种信息不对称、信息传播受阻、各方影响因素急剧变化的情况下,关键的影响因子、因素变化的情况被遮蔽了,再怎么运筹,再怎么建模,也是行动赶不上变动。

无法适用的运筹学

大数据的终结目标,根据数据阐释作出预测和决策。但理论阐释和趋势阐释,大多基于统计、运筹及数据建模的方式来对行为人作出行为假设,或对根据收集到的数据进行可视化描述。至于说这个假设在多大程度上能够实现,取决于概率的有效性。但是如果用在救灾等需要精准信息的应用环境下,这种预测或者可能性往往会给救灾带来致命性的打击,谬之毫厘、失之千里。

举例而言,我在微博上转发的“百度迁徙”提供的2月9日“东莞扫黄”8小时迁徙图,通过海量的手机用户提供相关GPS数据,绘制大数据地图。但是这张图也仅仅能描述,截止当晚9点的最近8个小时内,这一个时间点上的人口迁徙路线与上一个时间点上的人口迁徙路线的相对比值来看,从东莞到香港的人数最多。这是一种描述性的大数据,但是不能轻易的理解为所有从东莞迁徙而去香港的人,都是去东莞“买春”的香港人。要做出行为阐释性的大数据的定性描述,则需要了解每一个提供这些GPS数据的个体在当天的行为轨迹及其背后的行为逻辑。

作为个体的行为逻辑,是很难用运筹学和数字建模去解读的。大数据,并不仅仅看是TB级还是PB级的数据。大数据是一整套的工作流程,并不是仅仅有信息架构和信息分析,既包括量化技术也包括质化技术,而且每个流程有独到的工作方法及方法论。大数据的流程包括:数据收集、数据清洗、数据量化分析、数据质化分析、数据阐释(理论建构、趋势评估和行为阐释)、预测趋势或作出策略。而在决策层面,行为阐释才是最关键的,而用于行为阐释的质化分析技术在大数据的讨论中很难见到。

被忽略的社会化属性

然而,国内现在的大数据人才需求往往集中在计算领域。在《八大最紧缺的大数据职位》这篇文章里,基本上都是基于量化分析来进行人员配置,其中除“ETL开发人员”用于数据收集、整理,“可视化工具开发人员”用于展现数据之外,不论是“Hadoop开发人员”(Hadoop是一个开发和运行处理大规模数据的软件平台,编者注),还是“数据科学家”和“信息架构师”,均是从对大数据量化分析的硬件层面去提人员需求,而忽略了数据与产生数据的行为人之间的关系的重要性,缺少大数据质化分析的人才配比。最近也有一个大数据公益大学开设大数据“速成班”,教学内容主要是以Hadoop为主,根本不涉及大数据从业者所需具备的社会科学的专业技术。

与国内的大数据粉丝们聚焦于大数据的数学属性不同,美国的大数据应用的一个关键的应用方向是社会化计算(social computing),纽约大学传播学院和Intel合作的实验室便是以社会化计算作为主要方向,MIT 的公民媒体中心与哈佛法学院Bekman网络与社会研究中心合作的媒体云(Media Cloud)项目,则是利用社交媒体的大数据评估公众对美国政府有关性权益的政策。这些都具有极强的社会化属性,并强调研究者的社会科学的背景。

公益大数据主要用于和人相关的应用个案之中,所以公益大数据基本上都是属于社会化计算的大数据应用方向。但从运筹学、统计学、数字建模等以“计算”为主的大数据主流论述,忽略了社会化计算的社会化的属性,也就是说忽略了大数据的关键来源——数据行为人本身。有公益小伙伴认为我上一篇《“解码”公益大数据》一文有标题党的嫌疑,我认为,似乎也是出于对“大数据”的计算技术抱有极大期待,而看到我那篇纯粹出于大数据方法论的讨论,所产生的心理落差。

说到底,数据再大,也是人产生的数据,数据再大,也需要人来整理和分析。计算机和互联网领域的大数据技术,也是节省人手整理、分析大数据的劳动力而存在的,并不能取代人对技术和技术应用的主导地位。也不应该因为大数据科技的海量数据处理能力优于技术劳工,而成为剥削技术劳工的“天然”依据。

说到底,大数据是一门互联网技术辅助下的社会应用科学。不要再说数据不够大了,也不要光看大数据的网络技术如何先进了,先来想想一个公益机构如果要引入大数据,具体用于什么、怎么用。最重要的是该想想,大数据如何有效引导公益行动和公益项目的决策,才是最重要的。

  • 微信订阅号:
    社会创业家
  • 了解和参与更多社会创新和公益创业的资讯和活动。
版权声明:①凡注明来自“社会创业家”的作品,未经书面授权,不得转载使用; ②凡本网注明转载自其它媒体和个人的作品,不代表本网观点和对其真实性负责。
  • 分享