搜索
  •  
  • 论坛首页
  • 龙泉之声
  • 学诚法师
  • 师父微博
  • 查看: 484|回复: 3

    [智能信息中心] 人工智能助力藏经整理

    [复制链接]
    发表于 2018-6-26 00:29:42 | 显示全部楼层 |阅读模式
    本帖最后由 王宇刚 于 2018-6-26 15:02 编辑

    人工智能助力藏经整理
    记2018/6/16-龙泉寺智能中心&藏经办公室&台湾法鼓山文化交流活动
    龙泉寺智能中心 董方
                                                        前 言

    佛法是拥有无上智慧的。学佛是为了亲近善知识,让我们能够学习佛陀的智慧。在端午这个中国传统节日来临之前,有幸参与了由北京龙泉寺和台湾法鼓山两岸法师及技术专家共同举办的藏经交流活动,法喜充满,殊胜无比。

    这次活动是我第一次以龙泉寺智能中心义工的身份参与承担,心中非常期待,但也伴随些许紧张。早早地就出门上山,8:30准时来到了明心阁,进行活动前的会场布置工作。


    一、会场布置

    会场布置是一项相对来说繁琐和忙碌的工作。比如桌椅摆放、电脑投影调试、摄影摄像调试、茶水预备、插花预备、礼品预备、内场接引等等工作,都需要反复演练,并且非常地注意细节。看似都是些没什么好记录的杂事,之所以单独写这一部分,完全是因为张师兄的一句话,让我体会到要用心做事。(PS:张师兄肯定没想到,他就在聊天中无意一说,会让我想这么多,哈哈哈)。

    当时我正趴地上整理麦克风、电脑、投影仪等绕成一团的各类电源线,半天捋不顺就很着急。张师兄闲聊跟我们说:“有一次贤度法师去台湾交流,回来以后就跟义工们说,台湾那边的接待工作做的非常好,非常用心,我们也要提升自己的接待服务质量,把这些工作做好。”正巧最近这段时间,学修部在组织我们学习师父的《好好做事》。我想:其实事情本无大小之分(在学习之前,我肯定是觉得技术交流是大事,端茶倒水是小事),如果我觉得某一件事小,那肯定会觉得有一件更大的事情,这就产生了比较,有了比较,就有了分别心,有了分别心,就无法安住在当下的事。师父教导我们好好做事,就是要包含所有事,应当用一心以待之,如实面对,细微之处见修行。

    感恩贤度法师的用心提示,感恩张师兄的智慧宣导。


    二、寺院巡礼

    9:30左右,参加本次交流活动的客人们如约来到山上。此行的客人有:台湾科技部的洪振洲老师、台湾法鼓山法幢法师、北京大学Kvision实验室王军老师、CBDB项目负责人王宏甦老师等。由龙泉寺智能中心雪梅师兄和晓冬师兄带领客人寺院巡礼。


    initpintu_副本.jpg

    先后巡礼了三慧堂、智能中心、藏经办、戒坛、金龙桥、龙泉图书馆、动漫中心等处。随后在动漫中心观影了《一个美国人眼中的龙泉寺》,并和萌萌哒的机器僧贤二做了互动交流。


    P1040861.jpg

    三、明心阁观影

    上午的时间很紧,中午来不及吃饭,就想着去买点零食对付一下。走到流通处的时候看到有位师兄在搬箱子,就前去帮忙一起把很多食品箱子搬到观音殿后堂,出了个小坡:)我想这个举动也是学佛后我自己的进步吧,以前似乎不太会主动去帮助陌生人。出完坡后就到了排班入场的时间了,藏经办和智能中心的义工师兄们有序排班进入明心阁。

    12:00,客人一行也来到明心阁,与藏经办和智能中心义工们一起观影《五岁菩提》。五年,在历史的长河中无疑是转瞬即逝的刹那,而对于伴随着龙泉寺一起长大的无数人来说,对于来自天涯海角、将龙泉寺视为心灵家园的无数人而言,龙泉寺五年来安贫乐道、艰苦创业、弘法利生的每一天却又承载了师父多少的悲智宏愿,凝聚了多少人的汗水与欢笑,谱写了多少心灵的成长与生命的飞跃。

    这是我第二次观影《五岁菩提》,从柳芳精舍到现在的龙泉寺,每一步的发展都充满了艰辛与慈悲,每次看都我都很感动,在场的诸多师兄在观影时也被情景触动,流下感动的泪水。

    “回顾历史的目的主要为了展望未来,展望未来的目的是要服务社会、创造历史。”——摘自师父在龙泉寺五周年回顾会上的开示。


    四、藏经工作交流

    观影结束后,由我和人工智能部的部长柯师兄负责请师,这也是我第一次请师,人生经验又升级了。首先,由贤超法师带众缘念,接着是张师兄介绍参与本次技术交流的法师及嘉宾,分别是:龙泉寺贤度法师、龙泉寺贤超法师、龙泉寺藏经部义工负责人晓冬师兄、台湾科技部洪振洲老师、北京大学Kvision实验室王军老师、CBDB项目负责人王宏甦老师,以及龙泉寺的诸位专家义工和来自北京大学的博士生们共同同参与讨论。


    P1040985.jpg

    贤度法师首先进行了主题演讲:《利用人工智能整理佛教大藏经》。对龙泉寺智能中心的藏经OCR技术和藏经校勘平台进行了成果分享和系统演示。龙泉寺的藏经校勘工作主要有两个目标:

    1、 收经的范围要广泛。先后收集了《高丽藏》共计超过16万张图片、《永乐北藏》共计超过7万张图片、《乾隆大藏经》共计超过2.8万张图片、《嘉兴藏》共计超过4.7万张图片等。

    2、 每一个字都可回溯。这是一个非常殊胜和具备技术挑战性的目标。要做到原始经典中的每一个文字可以回溯到具体的典籍,这里就需要做大量了OCR识别和古文字典的整理工作。


    龙泉寺藏经校勘的业务特点主要有4个:

    1、作业标准化

    2、人工智能化

    3、工作流程化

    4、工作网络化

       基于以上业务特点可以实现页面级的文本标注:一页图对应一页文,一列图对应一列文。由龙泉寺智能中心的义工团队针对图片进行逐张的人工标注工作。

    龙泉寺的藏经校勘平台主要能实现5个主要功能:

    1、切分

    2、校对

    3、校勘

    4、标点

    5、业务流程

    采取“2+1”的工作模式,将义工分为“初、中、高”三个级别,分别参与不同程度的校对/校勘工作,并由专家和法师统一把关,充分调动起了义工和专家们的参与能力,并演示了藏经校勘平台的核心功能。


    最后,贤度法师介绍并演示了龙泉字库平台的系统功能。以“仏”字举例,这是一个生僻字,那如何知道这个字该读什么呢?基于龙泉字库,可以输入“仏”字的左右两个部分,可以展示出所有包含这两个部分的字,由于该字没有其他偏旁部分,所以再输入一个“0”,就可以在龙泉字库中精确定位到“仏”这个字,这个字就是“佛”的一个异体字,“仏”=“佛”。通过这个例子充分展示出了龙泉字库的智能性和古文字体采集的广泛性。


    P1050190.jpg


    接着,由贤超法师针对人工智能技术在龙泉寺藏经校勘工作中的具体应用进行了主题演讲。贤超法师首先介绍了智能化和电子化的区别。不能以为把所有的图片和古文字都收集好,放到系统里就算完成工作了。对于电子化和智能化的理解:找到是第一步,理解是第二步。如何利用人工智能技术来理解藏经来更智能的处理和校对藏经,这才是工作的重点,并且是需要持续深入的进行技术研究和实践,才能不断的提高人工智能技术在佛经中应用的识别率和准确率。

    晓冬师兄主要介绍了龙泉寺智能中心藏经部的工作,包括OCR技术的改进和在龙泉寺的应用、藏经校勘平台的技术架构、藏经部工作与CBETA平台的结合点等内容,并且展示了龙泉寺藏经部通过数据可视化技术来分析并整理佛经中所出现的人物名称和人物关系,可以非常直观的了解到人物的法脉传承和佛经中常用词的词频统计等。

    来自台湾的洪振洲老师介绍了CBETA 2018最新系统的特性和功能演示。关于CBETA的官方介绍如下:

    中華電子佛典協會 (ChineseBuddhist Electronic Text Association 簡稱 CBETA,以下簡稱本協會) 由「北美印順導師基金會」、「菩提文教基金會」與「中華佛學研究所」於1998 年 2 月 15 日贊助成立。其目的為免費提供電子佛典資料庫以供各界作非營利性使用。2001年2月由「西蓮教育基金會」繼續協助此案的進行。

    洪振洲老师讲到,CBETA最新的系统收集了更多的典籍,并且开放了全部的API,可以与第三方系统进行数据交换和资料调用。

    洪老师继续分享,CBETA系统也做了很多的OCR和后续文字处理工作,也发现了一些很有意思的成果。比如,在佛经中最常出现的动物是:虎和象。虎和象在佛经中最常见的词汇不是老虎和大象,而是白虎和白象。以此举例可以了解到佛经中的用词文化。还比如,通过对整段佛经译文的对比可以发现,在不同时代的佛经翻译者,并不是百分百原创翻译,很可能是借鉴或者直接饮用了前朝的翻译,而加入到自己的翻译之中。



    P1040988.jpg



    来自北京大学的王军老师分享了数据可视化在佛经研究工作中的具体应用。通过数据可视化,可以直观的反映出佛教在中国的传播轨迹。在早期,佛教在中国的传播中心主要是长安和洛阳,继而逐渐的扩展到全国其他地区。原始佛教典籍的图片在经过ORC处理成文字信息并存储到系统中后,文字就变成了数据,通过数据可视化可以发现佛教文化中更多的规律和隐藏信息,便于我们更加了解佛教文化在中国的传播历程。

    CBDB的项目负责人王宏甦老师介绍了CBDB项目的最新资讯。CBDB项目的全称是:中國歷代人物傳記資料庫。CBDB数据库由哈佛大学费正清研究中心、北京大学中国古代史研究中心、台湾“中研院”史语所合作开发。它以单一人物的生平纪录为核心,并通过字号、亲属关系、生卒年份等项目,展开个人与其他人物的关系网络,形成所谓的“关系型”资料库。虽然CBDB通过个体检索实现,但这种个体不是独立存在的,数据库通过搜索搭建了这些历史人物之间的关系网络。

    王宏甦老师表示,“CBDB展现的人,是群体的人,是大数据系统下的人,而不是每一个单一个人的资料。个体的呈现,通过整个关系网络实现,体现的也就是‘群体下的个体’。”

    在法师与各位专家老师的主题分享之后,大家开展了自由讨论。其中让我们印象深刻的是洪振洲老师的一个观点:如何能够更有效的保护佛典这类数字文化资产?答案就是:分享。传统石刻可以保存千年以上,但是竹简或者纸张智能保存数百或者数十年。我们辛苦收集并整理了这些数字文化资产,将资产存放在硬盘或者云端来妥善保存。但如果我们都将自己收集的资产分享和开放出来,就会有更多人来复制或者转储,搜索引擎也会不断的抓取,这样就形成了分布式的存储,只有分享和开放才能够更有效的保护这些珍贵的数字资产。

    最后,由贤度法师带众集体回向并合影留念。


    P1050253.jpg

    后记

    龙泉寺是一个僧俗共修的道场。在这里不仅能够学到佛法的智慧,更难得的是可以与众多专家产生有关学术和技术的智慧碰撞。特别是想今天的这个活动,通过佛法,把两岸专家和法师联系在一起,能够共同坐下来深入交流,实在是法缘殊胜,机会难得。有幸参与此中,收获很多,再次感恩法师慈悲、感恩义工菩萨们的组织安排,特此记录,阿弥陀佛!



    CBETA的官网是:http://www.cbeta.org/可以在这里更详细的了解CBETA的资源和功能。

    发表于 2018-6-26 21:54:05 | 显示全部楼层
    顶礼各位法师!
    随喜赞叹分享!
    发表于 2018-6-27 21:13:32 | 显示全部楼层
    感恩分享,当日未能入场
    发表于 2018-6-27 22:52:00 | 显示全部楼层
    顶礼法师随喜赞叹感恩分享
    您需要登录后才可以回帖 登录 | 注册

    本版积分规则

    Powered by LongQuanZS @ 2001-2017 CComsenz Inc.(京ICP备09021374号)