Monday, 16 February 2015
政见 | 空气污染数据造假 这些城市嫌疑最大
图片来自原论文
还记得“我为祖国测空气”运动吗?2011年底,北京雾霾极为严重,但是北京市环保局的官方数据却并很“和谐”,而美国驻华大使馆的监测数据则一度 “爆表”。两个来源的数据“打架”,让人们开始怀疑官方数据的可信度。于是,一些民间环保组织和志愿者发起“我为祖国测空气”,期望募捐自购监测设备,以 发布独立的空气污染数据,与官方数据“抗衡”。但是,环境监测设备昂贵且专业性强,“小米加步枪”的便携式自测设备的专业性同样备受争议。
那么,问题来了。官方数据是否造假?如果造假的话,如何找到证据?加州大学两位研究者试图通过研究解决这个问题。他们使用2001-2010年的中国113座城市日均空气污染浓度数据,揭示了城市自报数据的造假证据与造假时点。
他们的研究显示:高达一半的城市都存在不同程度的造假嫌疑。有意思但是,城市的官方数据往往倾向于在不易被觉察的时间造假(如能见度高而风速低的时候),以避免被发现。
不过,数据造假并非“天衣无缝”,通过两位作者开发的方法,就可以揭露其篡改行径。两位作者将其形容为“徒劳的修饰”,因为他们认为中国城市篡改空气污染数据是徒劳无益的。
空气污染数据的造假诱因
为了激励城市政府重视空气污染治理,地方官员的政绩考核中往往包括诸如“蓝天数”这样的指标,即全年空气污染指数低于100点的天数。比如环保部开发的“城考”体系,规定环保重点城市全年85%的天数必须达到蓝天标准。
环境保护的重要性越来越强,地方官员的晋升也受其影响,因此他们有动力去达到这些环保考核指标(参见政见介绍的论文 《《怎样让市长关注环境治理?》 )。但治理环境污染的成本高昂,在信息不对称的情况下弄虚作假显得更容易。
由于缺少独立的监督机制,地方官员有强烈的激励去弄虚作假,以低报空气污染数据并获得较佳的考核结果。
数据造假的危害是明显而严重的,因为它减弱了环境监测的预警效应,也剥夺了公民的知情权。如果空气污染非常严重,但官方发布的数据却不予提醒,那么 暴露在污染中的市民无异于“躺着中枪”,在毫不知情的情况下承受污染侵害。基于这些被篡改的数据而开展的实证研究,也可能得出错误的结论,而据此提出的政 策建议则可能是误导性的,可谓“遗患无穷”。
研究者将数据造假界定为不报告真实污染水平的行为,如篡改数据或隐藏不好的污染数据。值得一提的是,数据造假不包括政府临时关停工厂、单双号限行等 策略性行为——无论是2008年的北京奥林匹克运动会还是2010年的上海世博会,以及2014年的北京APEC领导峰会,政府都曾使用类似的手段,以在 短期内改善空气质量。这些策略性行为虽然效率不高,但的确在短期内降低了污染程度,因此不能说是数据造假。
揭露数据造假的“福尔摩斯”
揭露数据造假的最佳方式当然是使用独立的数据来源,与官方数据进行比对。但是,这种数据往往很难获取,特别是大样本和跨时期的数据更难找到。
不过,还有别的办法来识破造假的蛛丝马迹。在不存在数据造假的情况下,空气污染浓度的分布应该是连续的或平滑的曲线。当地方官员试图造假时,最有可能在空气污染浓度处于蓝天标准的临界点上(即API为100点)时下手。
这样一来,把略高于临界点的数据稍微拉下来一点,就可以使当天的空气污染数据符合蓝天标准,且不容易被人察觉。如果这种情况三番五次地发生,就可以说明存在数据造假的嫌疑。
研究者的数据来自隶属于环境保护部的中国环境监测总站。它只是汇总各地政府上报的空气污染数据,因此数据如果发生造假,应归因于地方政府。
中国环境监测总站对外披露的数据只有API和主要污染物,而不包括各污染物的具体浓度值。研究者获取了所有详细数据,发现城市的API均值是76.32,蓝天数占84.6%,刚好接近蓝天数的考核标准(85%)。
研究者使用一种叫做“断点检验法”的方法,发现数据中的确存在值得关注的造假问题,其表现是:在临界点上出现不连续的断点。
他们发现,大约半数的城市存在捏造PM10污染浓度的嫌疑。但是,二氧化硫和二氧化氮的数据造假并不明显。由于PM10是中国多数城市无法达到蓝天标准的主要诱因(高达73.7%),因此在这个指标上造假就不足为奇了。
找准数据造假的时机
光发现造假只是第一步,下一步是锁定城市造假的时机。这就需要通过适当的匹配方法,将地理位置和省份特征都类似的城市配对。研究者将地理邻近且属于同一个省份的城市配对,获得了13对城市。
在能见度和其他天气情况相同的情况下,配对城市的空气污染程度应该是接近的。如果某个城市出现异常情况,就可以揭示城市在哪些情况下更倾向于造假。
研究者使用的气象和天气数据包括能见度、气温、大气压、降雨量、风速等,其中能见度与空气污染程度的相关程度最高,可以视为空气污染程度的代理指 标。气象数据来自美国的国家气候数据中心,天气数据来自中国的国家气象局。由于气象局没有激励去数据造假,因此可以将其报告的数据视为可信的。
借由“面板匹配法”,研究发现:13对城市中有4对没有造假嫌疑,剩下9对都有可能造假。
为了掩人耳目,数据造假最可能发生在异常情况不易被揭发的日子。在能见度高而风速低的时候,数据造假更容易发生。能见度高时,人们会认为空气污染不严重,造假不易被觉察。风速低的时候,空气污染物无法随风而去,需要人为干预以影响空气污染数据。
猫和老鼠的游戏仍将继续下去
这项研究只是说明处于临界点的数据造假更容易发生,但实际上数据造假可以在任何环节出现,因此其严重程度可能被低估了。
该研究列出了数据造假和未造假的城市榜单和地图分布,从中可以发现无论南北、沿海或内地、大城市或小城市,都有造假的嫌疑。
有趣的是,为什么某些城市造假,而另一些城市却没有造假?其背后的原因何在,尚值得未来研究予以揭示。
值得注意的是,2012年新的空气质量标准出台后,特别是国家加强了大气污染防治举措,使各地政府不得不重视空气污染治理。随着各地数据直报系统的 逐步建立,以及时均数据的实时发布,都使地方政府干预空气污染数据的可能性大为降低。但是,“道高一尺魔高一丈”,数据造假的新迹象仍有待考察。另外,政 见此前曾介绍过两篇有关数据造假的论文,可以作为理解造假行为的参考,它们分别是 《“克强指数”与经济数据造假的政治学》和 《政绩不够,数字来凑;官出数字,数字出官?》。
参考文献
Ghanem, D., Zhang, J. (2014). ‘Effortless perfection:’ Do Chinese cities manipulate air pollution data?. Journal of Environmental Economics and Management, 68 (2), 203-225.
from 中国数字时代 http://chinadigitaltimes.net/chinese/2015/02/%e6%94%bf%e8%a7%81-%e7%a9%ba%e6%b0%94%e6%b1%a1%e6%9f%93%e6%95%b0%e6%8d%ae%e9%80%a0%e5%81%87-%e8%bf%99%e4%ba%9b%e5%9f%8e%e5%b8%82%e5%ab%8c%e7%96%91%e6%9c%80%e5%a4%a7/