法律语言
未名文斋
英文资源
  学术界

  首页 >>  学术界 >> 学术方法

怎样做研究(五)

.

刘挺博客
http://users.ir-lab.org/~tliu/blog/

怎样思考

1、把问题定义清楚

有的同学做了很长时间的课题,还没有把问题定义清楚。以自动文摘问题,好像就是把一篇文章中的核心内容提取出来吗,还怎么定义,其实不然。文章是什么样的文章?议论文、记叙文、还是说明文,还是包括小说之类的文学作品?文章的来源是哪里?是《人民日报》等用语非常规范的文章,还是网络文体,比如blog或BBS上的文章?文章有没有长度上限,10万多字的博士论文是否需要提取摘要?能否对多篇话题相同的文章一起做摘要?再说摘要,适用于阅读的报道性文摘,还是用于判定主题相关性的指示性文摘?有字数限制还是比例限制?是否根据用户的需求有所偏向?对文摘的连贯性有没有要求?怎样评价一篇文摘的质量。只有把问题的初始状态(此处为原文)和问题的终止状态(此处为文摘)搞得一清二楚才敢说问题定义清楚了。“知止而后定”,问题定义清楚了,把子立好了看清了,心也容易静下来,再怎么做工作始终围绕一个目标,这样的工作才不会左右摇摆,才有意义。

2、思维逻辑要干净

思维逻辑啊,思维逻辑!我越来越觉得这是一个人从事科研工作的最重要的素质。我的学生有两种,大多数人的思维是非常干净的,而确有少数同学的思维是混乱的、粘滞的。思维逻辑混乱的同学需要通过不断的自我认识,找出自己的误区,否则在前进的过程中会步履维艰。打一个比方,人脑好比一台计算机,阅读资料是数据输入,加工处理则要靠思维逻辑,思维逻辑如果混乱就仿佛是程序有Bug,输入的数据再充分再正确也无济于事,甚至由于处理能力有限,输入的阅读,处理起来越乱。

有的同学还钻牛角尖,抓住一个很细节的无关紧要的问题不放;有的同学思维的跳跃性非常大,一会在问题的高层思考,还没有讨论清楚,忽然又跳到一个底层的细节上;有的同学听不进别人的意见,满脑子只有自己的声音;有的同学不懂得矛盾对立统一的道理,总想把问题绝对化,造成自己很大的困扰;有的同学做惯了开发,总是想着怎么把一个系统实现,而不是把注意力集中在创新上;有的同学不善于剖析问题,分析数据,不懂得先分析再综合的思维方法,总是在问题的表层打转转,始终无法深入。。。。。。

计算机大学本科专业科中的不少内容在今后的工作中都不能够直接地排上用场,但是有一位在医科大学教计算机课程的老师向我反映,她叫医科大学的学生编写程序非常困难,因为思维逻辑完全不对,医学需要大量的死记硬背,而很多病症都是模模糊糊,需要大量经验,而计算机的思维是非常严谨周密的。教管理学院学生的,教人文学院学生学习计算机的老师们也都有自己不同的感受。这是什么原因呢?原因就是计算机本科专业科,比如离散数学(包括数理逻辑)、算法与数据结构、高级程序设计等课程给计算机专业的学生奠定了一些思维逻辑上的基础,思维方式在无形地对一个人未来的工作发生着重要的影响。

我有一个同事是从理科转过来学计算机的,我和他就明显不同,他很少编程,但每次做了一个试验后,他习惯于花大量的时间对数据进行分析。而我对数据分析不够重视,思维倾向于怎样巧妙地把搞出一套方法来,实现一个系统,解决一个问题。理科偏重于解释世界,工科偏重于实现系统。我们只有通过不断的内省,发现自己的思维方式,善加利用,有所修正,才能够顺畅地开展科研工作。

3、分析与综合

分析与综合是两把思维的利器,一定要好好运用。通常一个问题来了,我们感到无所适从,不要着急,请先使用“分析”这把“刀”,把问题划分为若干子问题,子问题之间的关联越少说明这一刀砍的越是合理,如果实在非要“连着骨头带着肉”,也没有关系,但是要记录下子问题之间的照应关系。子问题如果很容易解决了,就是本原问题,不用再分,如果还是比较复杂,可以进一步分析,得到一些“孙子”问题。经过深入分析,一个貌似强大的问题已经被我们看得清清楚楚,每个本原问题都比较容易找到解决方法了,研究者的精神也可以放松一下。

但是,搞研究不是做工程,不能满足于用打补丁的办法解决一个具体问题。在分析之后,还有在拿起另一把武器“综合”,“综合”的作用是合并同类项,比如通过对子问题1、4、5的考察觉得这个问题象是一个球体,通过对子问题2、3的考察觉得这个问题象是一个圆形平面,经过归纳则可以给这个问题建立起“半球体”模型,很可能就接近真实情况。归纳后可以演绎一下,看看灵也不灵,那就是用测试数据进行测试了。

概括地说,分析是分类并考察每一类的特征,分析是显微镜,帮我们看清了问题的每一个细节。综合是尽可能地找出统一的模型概括各类现象,统一的模型可能是多个模型的融合,但最好不是简单拼接,而是激光焊,在分子层面把多个模型融为一体。分析决定深度,综合决定高度,缺一不可。

顺便给出一个观点:普遍认为国内存在着低水平充分研究的现象,比如搞搜索引擎,从很少有人涉猎到一下子冒出很多家来,都在搞搜索引擎,而且大多数都处于起步阶段,难分伯仲。大家都觉得研究空间狭窄,竞争激烈,但又不知道怎样解决这个问题。其实对一个课题进行深入分析,把大课题分解为小课题,各家不搞大而全,或者即使全,但在“全”中都有自己明确的重点,比如专注于搜索引擎中的分布式计算问题,或专注于跨语言检索问题,或专注于问答系统等精准搜索,等等。对于规模小一点的组,甚至可以专注于更细的问题,比如问答系统中的问题分类,跨语言搜索中的查询翻译及扩展等。我们知道大树的根,越深的地方分差越多,覆盖的泥土空间也越大,研究也是这个道理,都浮在表层,就会感到空间狭小,如果深入下去空间就大了,不容易撞车。而且在一个细分的问题上,可以集中优势兵力作出突破性的成果来,又因为研究同一个细分问题的学者相对较少,研究工作的积累也相对不足,你动一动就可能做出新的成果来。因此,我的建议是:深入、深入,再深入。

4、创新思维

呜呼哀哉,我的弟子中真正有创新能力的寥寥无几啊。我一直在思考如何挖掘和培养学生们的创新能力,在此谈谈自己的想法。

创新是科研工作的灵魂!“不创新,无宁死”,每个科研人员都应该有这种决心。科学界没有“省级运动会”,“全国运动会”,只有“奥运会”。你说你是中国首次提出“狭义相对论”的人,毫无意义。那么,创新就应该是在世界上内第一个提出某个想法的人,如果你的想法在地球的某个角落里已经有人提出了,那就不是创新,那就是重复,是浪费科研资源,浪费人力物力。人生短暂,大多数芸芸众生都在干着日复一日的重复劳动,有幸成为科研工作者,可以表现一下自己独特的想法,何其快哉,如果拾人牙慧,又何其痛哉。

创新这件事没有固定的套路,如果有,就好像炒股票有了确定的获利方式一样,大家就都能赚钱,都能创新了。我很喜欢岳飞的一句话:“运用之妙,存乎一心”。史书记载:岳飞英勇善战,受到宗泽的赏识和器重。一次宗泽召见岳飞,说:“尔智勇才艺,世良将不能过,然好野战,非万全计。”因向飞传授作战阵图。飞说:“阵而后战,兵法之常,运用之妙,存乎一心。”宗泽听了以后,深为赞赏。搞研究象打战一样,固定的阵法战法也有,但真的想取胜需要“奇兵”,所谓“以正合以奇胜”。怎么出奇,完全靠指挥员的心思一转。

什么样的人擅长创新的,我觉得首先是那些平素喜欢天马行空胡思乱想的人,孔子有一个非常有才具的学生叫子贡,但孔子说他只能问一知三,说他不如颜回,颜回能够问一知十。触类旁通,在自己的识体系内利用各种相似性建立关联,就为创新创造了条件。“草圣”张旭的草书是从公孙大娘剑舞中悟出的,因为张旭通过多年苦练对书法的基本技巧已经炉火纯青,再想发展在书法本身上已经很难汲取新的营养,最后他从剑舞中悟到了获得了新的草书结构,艺术上峰回路转,又上层楼。

有不少同学,做研究只看和自己的课题最相关的文章,如果是一个新的领域,文章很少,他就会感到很苦闷,他更不知道从领域之外后的灵感了。搞文本检索的人,要了解一下图像检索的知识,从中可以获得启发,反之亦然。语言模型原来就是在语音处理中使用,现在却成了文本处理领域最成熟的理论方法。类比、嫁接从来都是创新的重要手法,视野不开阔,只知道自己眼皮底下的一点点东西,始终跳不出自己给自己设下的思维陷阱,是无法提出新想法的。

创新还必须从自己独特的体验中来。以诗歌为例,诗反映的就是一个人独特的生命体验,因此最忌讳用一些大众常用的泛泛的词汇,比如形容长江大河,不能说“浪涛汹涌”,要说“惊涛拍岸,卷起千堆雪”。搞研究也是如此,要用你自己的眼睛去观察数据,发现别人没有发现的特征,发现别人没有发现的故障点,找到别人不曾用过的观察视角重新观察你的研究对象,人与人的阅历不同,观察和思考问题的方式各异,如果你能够再重复调研的基础上,以“我”为主,把自己的原始体验经过归纳总结表达出来,那么即使是很小的一点进步,因为与众不同,那也是一个有价值的创新。何况,在你这一个课题上,全世界能够有个人坚持不懈地干上两年三年,并不多,就怕你没有自我,只要坚持你自己,表达你自己,即便资质差一点,也一定能够有所创新。

创新有种种,开辟一个新的领域,提出一个新的问题,是大的创新。在研究生阶段不容易做到,可以先扎扎实实地做一些方法层面的创新。方法上的创新也有大小之分,“模型创新”就属于比较大的创新,“模型”永远不等于“实际”,模型是对实际的最大限度的逼近,对于相同的输入,好的模型能够给出与真实情况更接近的输出。比如信息检索中有向量空间模型,这个模型因简单而常用,但是他没有考虑词项之间的关联,如果能够提出一种新的模型,把词项之间的项目制约关系也考虑进去,就有可能获得和更好的效果。这种创新还比较直接,如果能够彻底推翻向量空间模型,提出类似LSI(隐性语义索引)之类的模型,则是更大的创新。再比如长尾真提出基于实例的机器翻译,就是思维一转,对翻译过程看成实例匹配,而不是查词典和调序,这属于比较大的创新,也是我认为很有意义的创新。

如果提出新的特征,或新的特征抽取方法,或采用别人在该问题上没有用过的机器学习方法等,只要能够说出道理来,也都是创新,只是不那么激动人心而已。

创新思维是求异思维,不是求同思维,高人出手,变化多端,无所不用其极。要从东西南北,上下左右去观察事物,如果面对的事物太庞大,压扁了再处理行不行?切成碎片再处理行不行?烧化了变成水再处理行不行?在地面上实在处理不了,运到海底行不行,送到空间站上行不行?图像处理中有从空域到频域的变换,在空域里剥离不了的噪声到了频域里很容易分辨出来;在词义消歧中,bank不知道是“河岸”还是“银行”,放到宏观上下文一看,比如知道这边文章是金融类的,那它十有八九是“银行”。

创新是要“悟道”,很多时候要靠直觉,直觉就是大脑的并行计算,它把各种信息综合在一起,给出答案来。因此,你的灵感来了,要赶紧抓住,我有时有了好点子,身边没有纸笔,就感谢写到手机里,生怕忘记。


法律语言学研究网之“学海泛舟”
2009-12-20