Thursday, 28 June 2012

凤凰周刊:大陆研拟藏维文网络舆情监测系统 监控分裂风险



2012年06月25日 15:05
来源:凤凰周刊
作者:李光 钟雅琼
转自:凤凰网 (注:文字红色字体部分,红色为博主添加)

中国西藏网最终还是放弃了开通藏文博客的打算。网站的藏族编辑娜科告诉记者,由于内容监管方面的压力,藏文博客必须采取先审核后发布的管理方式,如果处理不及时,或者处理不好,网友会有很大意见。目前,藏文网站的内容监管仍处于人工阶段,开通藏文博客需要付出很大的人力成本。综合考虑之后,中国西藏网决定将这一计划暂缓。

作为国家重点新闻网站,同时也是大陆最大的涉藏网站,中国西藏网的担心并非多余。2012年2月以来,受到一系列藏人自焚事件的影响,大陆地区一些颇具人气的藏文博客被关闭。青海湖网的藏文博客一度发出公告称:“由于部分用户不按照此博客宗旨发表日志,暂时关闭此博客,敬请广大博友谅解。”

此前亦有境外媒体报道称,著名的藏文博客网站www.Sangdhor.com也曾被关停,“原因是该网站发表的诗歌《哀痛》描述了发生在西藏的自焚事件。”

目前,内地基于中文的网络舆情监测系统已经有较为成熟的研究成果,但由于少数民族语言文字信息化处理水平整体相对滞后,监管部门尚没有成熟的软件系统对少数民族文字的网站进行舆情监测,于是,在一些敏感事件发生之后,不得不关闭网站以应对日益复杂的网络舆情。

中央民族大学等机构正在进行《藏、维文网络敏感信息自动发现和预警技术》的课题研究,或许可以从一定程度上改变这种简单化的管理方式,也将缓解娜科等网站编辑在内容监管方面的工作压力。

藏文、维文网站是管理重点

中国互联网络信息中心(CNNIC)发布的《第28次中国互联网络发展状况统计报告》显示,截至2011年6月底,大陆网民数量已达4.85亿。在公众对中文网络的使用越来越熟练的同时,少数民族文字网站也提上官方管理日程。

赵小兵是中央民族大学信息工程学院教授,同时担任国家语言资源监测与研究中心少数民族语言分中心副主任。据他介绍,目前直接使用少数民族语言文字的网站并不多,主要有蒙古文、藏文、维吾尔文、哈萨克文、柯尔克孜文、朝鲜文、彝文、壮文、傣文等9个民族10种文字(傣文包含新傣文和老傣文两种文字)。根据该中心2011年的调查,大陆少数民族语言文字的网站总量在389个左右,其中维吾尔文网站175个、藏文网站109个。

1999年12月,世界首家藏文网站在西北民族学院建立,此后藏文网页的数量不断增长,

大量的藏文论坛和藏文博客涌现出来。藏文网站从2009年的45个发展到2012年的130个。与全国网民增长速度相比,藏族网民的增速较为突出,增幅达86%,远远高于全国平均增长速度。

网络的普及正在改变藏族民众的生活方式。一些藏传佛教寺庙里的佛学院也为修行的学僧开设了计算机课程,学习打字、排版和网页设计等内容,并将推出自己的网站。考虑到西藏民众使用藏语文的习惯,大陆官方也一直致力于藏语言文字与现代化的信息技术同步发展的研究。早在1997年,藏文字符计算机编码就成为中国第一个具有国际标准、获得全球信息高速公路通行证的少数民族文字。

1998年,新疆诞生了第一个维文网站——塔克拉玛干,经过十几年的发展,维吾尔文网站也形成了一定的规模。但是2009年乌鲁木齐市发生“7.5”打砸抢烧严重暴力事件之后,新疆网站数量明显下降。原因是新疆维吾尔自治区通信管理局对全区已备案网站主体信息进行人工电话核查,从7月到12月,依据《非经营性互联网信息服务备案管理办法》注销了包括中文和维文网站在内的4966家网站备案。

舆情检测的现实困境

少数民族网站在境内蓬勃发展的同时,境外网站数量也有显著增加。2008年西藏“3·14”事件发生之后,《环球时报》引述外媒的报道称,在过去几年内,有大量宣扬“藏独”的网站和网页出现,“‘西藏流亡政府’已将互联网当做了一个强有力的吸引藏人对抗中国的武器。”

一年之后,新疆乌鲁木齐“7·5”事件让官方再次注意到互联网的作用。“7·5”事件发生之前,有些维文网站大批转载广东韶关旭日玩具厂“6·26”聚众斗殴事件,利用网络论坛进行造谣煽动,直到7月4日晚,一些网民在QQ群、维吾尔文论坛和个人空间发帖,响应“世维会”在境外组织的游行示威。大陆学者撰文称,“从‘7·5’事件我们认识到,维吾尔文个人网站已经成为舆情的重要窗口。”“目前有些维吾尔文个人网站论坛转载境外信息,报道不实消息,在一定范围内造成了恶劣的影响。维文新闻信息,特别是时政类信息的宣传存在着极大的安全隐患。”

其后,随着越来越多的少数民族运用本民族的文字,通过互联网来表达自己的情绪、态度、意见及要求,形成了少数民族地区的网络舆情。许多研究机构和市场主体声称,他们可以为客户提供这类网络舆情的监测服务:其舆情监控系统可在短时间内实现对新闻、论坛、博客、贴吧等各类网络信息进行汇集、分类、整合、筛选,也可对定制关键词的相关主题进行实时监测,全面分析网络舆情发展趋势,提供基于网络舆情监测的决策参考和风险预警。

但政府部门对网络中藏文舆情监控尚处于传统的人工方式,人民网舆情监测室尽管能够提供蒙古、藏、维吾尔、哈萨克、朝鲜等少数民族语言的舆情报告,但也是通过人工检索进行分析,与中文舆情报告相比,欠缺科学的分析工具。

一些商业机构如谷尼国际软件公司,也开发了“谷尼互联网舆情监控系统(多语言版)”,支持维文、斯拉夫维文、拉丁维文的舆情服务。中科点击科技有限公司生产的“军犬网络舆情监测系统”,也声称“可有效监控藏文、维吾尔文、蒙古文、彝文、朝鲜文等少数民族语言舆情信息”。


谷尼国际软件公司副总邹鸿强告诉记者,针对少数民族语言舆情监测需求,在“3·14”事件和“7·5”事件后明显增多,客户不仅有宣传部门,还有公安机关和安全部门。

但是,谷尼国际软件公司提供的少数民族语言监测服务,目前仅能实现定向采集与全网搜索这两种监测方式,至于中文舆情监测中的内容情感分析、主题词自动提取、全文检索等服务则无法实现,主要原因是“没有少数民族语言的相关词库和知识库。”这些都有赖于相关学术机构提供基础性的研究成果。

预警敏感信息

目前大陆开展少数民族信息处理研究的学术机构并不多,主要集中在中央民族大学、新疆大学、西藏大学、内蒙古大学、西北民族大学、青海师范大学和中国社会科学院等高等院校和科研机构。随着少数民族网络舆情监控系统的应用需求越来越强烈,大陆近年来明显加强了这方面的研究投入。

中央民族大学承担的“藏、维文网络敏感信息自动发现和预警技术研究”课题,获得了国家民委的资助;西北民族大学中国民族信息技术研究院也开展了相关研究,其研究论文《基于藏文网页的网络舆情监控系统研究》获得了国家863项目“多语言基础资源库研制和共享”的基金资助。

赵小兵介绍说:“藏文信息处理技术的发展与中英文相比具有一定的滞后性,存在着编码方式不统一、藏文分词技术不成熟等问题,这样将对敏感词的监控以及话题的发现与跟踪造成极大的困难,很大程度上影响舆情监控的质量。”

中央民族大学信息工程学院副教授闫晓东是“藏、维文网络敏感信息自动发现和预警技术研究”课题负责人。她告诉记者,该项目到2013年结项,预期目的是能够针对各类敏感信息,提出不同级别的预警方案,“目前能做到敏感词的自动发现和跟踪。”

赵小兵补充说,如果仅仅依靠关键词匹配的方式进行网站管理,发现敏感词就进行过滤的话,非常容易产生误判,也会带来负面效果。“少数民族语言本身的含义非常丰富,它有很多同义词,一个所谓的敏感词放在一句话中也许表达的意思可能并不敏感,同样,一个非敏感词恰恰可以用来表达敏感的意思。这种语言的多义性与复杂性要求我们的检测软件更加智能,能够从词语的深层含义去判断它是否敏感,而不是简单地抓出一个表面形式上的词。这就要求我们的管理者不能将管理简单化,一定要人性化、智能化。”

西北民族大学研发的舆情监控系统目前据称可以“对藏文网页的‘敏感点’进行监控以及对‘热点’实现预警,有效地解决政府部门以传统人工方式对藏文进行舆情监测的实施难题,为政府掌握藏族地区的舆情状况以及网络文化安全作出贡献。”

另据记者了解,公安部门也在开发一套藏文舆情监测系统,其目的是掌握境内外藏文网络舆情,从源头上了解境外“三股势力”(敌对势力、民族分裂势力和暴力恐怖势力)的最新动向,在应对其可能对境内造成的影响时把握主动权。该软件目前已经在公安系统内部测试使用。

由于现有技术手段不够成熟,内地少数民族文字网站普遍面临较大的监管压力,对于用户创造内容的博客和微博业务,一般不会轻易涉足。即使开通了这一业务,也都采用先审核后发布的办法,以应对可能出现的内容风险。

天山网是目前大陆唯一一家开通维吾尔文微博的维文网站,由新疆维吾尔自治区党委宣传部主办。维文微博自2012年3月开通以来,注册用户数量已超过3万,每天发布的微博数量超过5000条,依靠3名管理员24个小时轮流值班进行审核,平均每个管理员每天审核1500多条微博。随着用户数量的增加,天山网只能依靠增加管理员的办法进行内容审核,保证网站运行安全。

(参考资料:江涛、于洪志等《基于藏文网页的网络舆情监控系统研究》,阿加提·依布拉音《新疆维吾尔文网站研究》等)(实习生黎凤对本文亦有贡献)

附:江涛、于洪志等《基于藏文网页的网络舆情监控系统研究》(转自百度文库










from 看不见的西藏~唯色 http://woeser.middle-way.net/2012/06/blog-post_28.html