10/09/2006

关于科技文献检索与分析--期刊和专利(zz)

来自: http://202.120.97.86:8080/viewthread.php?action=printable&tid=11417

第一部分
修改了一下标题,因为写着突然发现很多会涉及到分析部分。其实检索只是一个基础,只是为了得到一个结果,便于分析。刚才好奇,用“专利分析”在园子里面检索了一番,结果发现,讨论的很少,连相关的介绍也很少,不过发现还有位兄弟对Patent Map很有研究,而且对INAS系统有研究,所以,会在后面增加一些专利分析软件的介绍。所有的介绍均是个人研究得到的,研究的目的、用途不一样,得到的结论肯定有所差别。仅是个人意见,可以讨论。

前人讲了很多检索,很多*****(在此说一句,够用就行了,不要浪费时间了)。但是很少有人讲检索以后该怎么办,大家默认的就是读。从读开始,然后作研究。每个人都想有所创新。但是,该如何创新呢?

目前中国的SCI发表量与日俱增,说明了中国的研发实力正在迅速上升。但是,中国的SCI收录量和中国这样一个大国还是很不成比例,中国目前的创新太少了,基本上都是跟着别人走。为什么大家都在做这个东西,别人就能想得到,我们想不到呢?我最初感觉上是我们没有合适的方法,没有合适的工具来帮助我们。但是,日子一天一天的混,从一穷二白到也有了些资源(学校的),后来突然发现,这些东西不缺了,咋还不行呢。想想自己的工作流程,突然意识到有了合适的工具并不代表你能够创新,要学会利用。

怎么充分利用这些工具,更好的帮助我们创新呢?好像园子里面没有人探讨,每天说的基本上都是要进入哪里取得什么东西,甚至有人说检索板块已经没有什么意义了,关掉算了,总感觉像是19世纪汤姆生关于物理学的评价,很怪异。真正的检索是为你的工作、学习、研究提供有效服务,现在的状态是只取得数据,继而就是读,怎样对这数据更好的分析,以更有效的方式来进行科研,不知道有多少人在做呢?

目前的科学研究,可能会有很多人同时在做一个项目,等待幸运的苹果突然光顾一下你的脑袋,这种几率已经很少了,毕竟全球那么多的人口在那摆着。每天狂看很多文献,也不见得有用。很多科技信息不是你一拍脑袋就能想出来的。因此,你可以借助已经针对这些问题开发出来的一些工具去看看除了你所关心的内容之外,还有什么与你很相关的。看看这项技术的发展历程是什么样的,从开始是什么状态,慢慢演变到目前这种状态,有什么分支,别人是怎么想到的,他们的想法对我们有什么启迪作用?是不是又是一个good Idea呢?(感觉像人类进化史。)因此,这篇帖子的重点在于介绍一些工具软件来帮助你更加有效的工作和研究。

本文不会涉及到任何***,仅是检索。以下均为个人见解,如果有不满者,欢迎讨论。

文献有很多种,以下只考虑科技期刊和专利,原因就是上述两种文献基本覆盖了所有的技术。由于浩如烟海的文献资料,一般人很难检索全。因此,有人专门进行了研究,发现,20%的期刊汇集了足够的信息以全面反映科技的最新最重要的成果与进展。因此只要对20%的期刊进行检索,一般就能够得到你所需要的数据。由于每篇文献要对前人的技术做出相应的回报,需要在其文献中提及前人所发表的文献,即参考文献,或是引证文献,这就方便检索人员可以追踪一项技术的发展历史。有上述两方面原因,我们在做检索的时候,就会更加容易的找到我们所需要的资料。

为什么要进行文献检索?很多人的解释是为了研发。但是屁股决定脑袋,处于什么环境的人考虑的问题是不一样的。学校的很多机构作研发,需要了解最新的,现在的,过去的技术。商业机构可能还要了解技术是否有投资必要,是否有专利侵权?而对于专利审查员来讲,就是,目前审查的专利是否已经有文献可以否定或是影响其新颖性。对于专利而言,很多公司除了研发之外还需要追踪竞争对手动向,是否有侵权行为等等。

目前,针对上面的不同的需求有不同的产品以满足其需求。例如,科技期刊,有SCI,CA,GOOGLE,还有很多全文数据库;对于专利,有各国免费网站,DELPHION,AUREKA, DIALOG,STN,QUESTEL-ORBIT等等。
在科技文献中,目前最权威的数据库是WOK,即web of knowledge,国内很多大学都买了,其中最牛的数据库就是WEB OF SCIENCE,国内更多的是简称为SCI。而在专利领域内,最权威的就是Derwent World Patents Index数据库,即德温特世界专利索引数据库。在专利领域内的人,如果不知道Derwent,那我就没有办法了,加紧学习吧。

对于SCI检索,已经有很多实际的例子,精美的PPT,都在帮助我们如何进行检索。比如说张帆老师的PPT,深入浅出,非常有用。但是,对于培训,毕竟时间有限,很多细节问题没有讲到,我就啰嗦几句,如果有钻石,翡翠之类的就尽管砸过来。不对的地方呢,欢迎讨论,以下仅供参考:

SCI是基于引证文献创建的。因此,引证文献在SCI中占有非常重要的地位。我们在对一个新的课题作检索的时候,通常会碰到一个问题,就是关键词描述不清或是描述不全,对于这种情况,引证就会发挥很大的作用。先用一个自己认为最恰当的概念或是关键词进行预检索,而后选择自己最想关的记录察看,进而根据引证文献找到更加恰当的。在SCI中,在检索结果列表的右下方会出现一个analyze按钮,以及在每条记录都有三个按钮。

这几个按钮是非常有用的,可以帮助你更有效的进行检索,也可以帮助你对你的检索结果进行一个分析,在这,我会提到一些,就是如何帮助你进行科技创新。
先说analyze。大家可能都用过,可以对检索结果进行统计分析。它可以对作者,国家,文献类型,语言,机构,年份,文献所属学科等等进行分类。这个功能非常的有用,比如说,你经过一番检索,假设你检索得到的数据比较准确,你可以先用文献所属学科进行分析一下,然后看看你的检索文献主要分布在那些学科领域,然后再将你感兴趣的纪录按照年份统计一下,就可以看出这个方向研究的大概走势,是上升了还是下降了?应该能够给你一个参考。或是你可以先作一个年份统计,然后再查看学科,作一个大概的分析,也能得到一个相应的结果。当然,这些分析都是基于你有一个非常准确的检索结果。Rubbish in, Rubbish out. 摸索摸索,SCI会给你一个意外的惊喜。这个功能帮助使用者Driving the Innovation.

下面就会涉及到另一个问题,就是如何进行准确检索。检索无非就是:keywordsearchResultmodify Keywordsearchresult这样一个循环过程。简单解释一下,就是先用一些你觉得最可以描述你所需要文献的关键词,然后进行逻辑组配,进行预检索,而后察看检索结果,是否有垃圾,是否有没有用上的同义词,是否有别的缩写。当你找到恰当的文献时,上面的三个按钮开始起作用了。利用其 Cited References找到以前的与你想关的文献,Times cited,可以找到这项技术的后续发展,而Find Related Records则可以找到与你关心内容相关的一些研究方向,看看,肯定会对你的研究起一个很大的提示。
这个功能也是帮助使用者Driving The innovation.

其实里面的功能很多,充分挖掘,充分利用,SCI这个工具不会让你失望的。
太晚了,下次写专利相关的。

第二部分
对于专利这块,将会介绍很多与专利相关得重要数据库及其特色,希望对大家的工作学习有所帮助,我会尽可能得客观评价数据库和软件,可能会有一些个人偏好,请大家见谅。

到专利这块,就比科技期刊复杂一些了。因为专利毕竟是法律文件,受法律保护,有严格的格式。同样,在专利领域中,检索专利的目的有很多种。做研发的,想了解目前的技术情况,看是否有人已经申请了专利;自己能否在被人的基础上加以改进,以绕过别人的专利保护圈;可能是为了进行专利战略分析,寻找新的发展机会;可能是为了寻找侵权者;无形资产评估等等方面。

不同的人对于检索专利有不同的要求。因此,目前在专利市场上有免费的数据库,例如各个国家的知识产权局,有收费的专利数据库,例如Delphion, Aureka,Dialog,STN,Questl-Orbit,Micropatent的PatentWeb等等。收费有收费的好处。免费的东西毕竟还是有些问题的,例如EP的专利检索,大家都喜欢到欧洲专利局去检索,但是去那里检索主要两个问题,第一:检索系统太糟糕,检索的结果有很多垃圾。为什么呢,在EP网站上检索,对于主题检索而言,可利用的字段就是标题和文摘,而很多专利的标题和文摘并不能完全反映专利技术的重点,因此在做检索的时候,会产生很大的漏检或是垃圾;第二,有500篇限制,即V2 和V3的区别。这些都极大的限制了用户对专利的获取。可能有人这时就会出来说,美国就很好啊。确实,这点我们要承认,毕竟美国有钱,做出来的东西确实不一样。而且还曾经获过大奖。但是有一点是没有错的,就是在专利申请时,为了避免被竞争对手发现自己的技术路线,会尽可能的将自己的专利用非常模糊的语言去改写,从而达到避免被人检索出来的目的。因此,就算在美国这么好的地方,在商用上,还是有问题。在这,收费数据库有了市场。毕竟在商业社会,免费的东西有那么多的问题,用的让人太不放心了。比较好的收费数据库主要是指那些对专利经过深加工的数据库。专利数据领域内很有名的就是Thomson公司的 Derwent数据库,针对所有的专利,覆盖了全球几十个国家和地区专利,是世界上最好的专利数据库,还有美国的CA,主要针对化学,法国的 PharmPat药物数据库,中国在这方面也有一些比较不错的,例如国家知识产权出版社作的中医药数据库,北京东方灵盾科技有限公司作的世界传统医药数据库(好像还没有上市,网上有介绍)。

下面,我重点介绍一些Derwent数据库一些很好的特性。这个数据库在Delphion,WOK(即在Web of Knowledge数据库中的DII),DIALOG(Dialogweb, Dialogone, Dialogclassic),STN(web和easy),QUESTEL-ORBIT。上述几个数据库,对于不同检索能力的用户可以选择不同的数据库,一般而言,DIALOGclassic,STNWEb,QUESTEL-ORBIT(这个国内用的人很少,偶也没有用过,无法评论),适合于专业的检索人员,用指令式检索。而Delphion,DII,Dialogweb则适合各个层次的用户。Dialogon,Stneasy则适合初学者。

Derwent对每条专利记录的标题和文摘都重新进行了改写,用更加简明易懂的语言,便于检索人员能够检索到这条记录。此外,Derwent还增加了很多字段,有申请人代码,Derwent手工代码(MC),Derwent分类(DC)等等。申请人代码非常有用,是Derwent汇集了世界上专利申请量很大的大公司,并对其进行分类得到的代码表。你可以在下面这个网址进行在线查询你所需要的申请人代码http://scientific.thomson.com/support/patents/dwpiref/reftools/companycodes/lookup/。,例如,IBM有很多分公司,其代码是IBMC,通过查找就可以得到如下IBM公司的列表:
IBMC CIE IBM FRANCE
IBMC IBM BRASIL IND MAQUINAS & SERVICOS LTDA
IBMC IBM CANADA LTD
IBMC IBM CORP
IBMC IBM DEUT GMBH
IBMC IBM DEUT INFORMATIONSSYSTEME GMBH
IBMC IBM INST MIKROTECHNIK MAINZ GMBH
IBMC IBM INT BUSINESS MACHINES CORP
IBMC IBM ISRAEL LTD
IBMC IBM JAPAN LTD
IBMC IBM KK
IBMC IBM NEDERLAND NV
IBMC IBM OESTERREICH
IBMC IBM PATENT OPERATION
IBMC IBM SEMEA SPA
IBMC IBM SEMEA SRL
IBMC IBM SVENSKA AB
IBMC IBM UK LTD
IBMC INT BUSINESS MACHINES CORP

如果在普通数据库中进行检索,很难保证一次性就把所有的IBM公司的专利检索全,但是你用Derwent的公司代码表,即可尽大可能的保证你的检索精度。

Derwent手工代码(MC)则可以看作是专利领域中的IPC。IPC过几天就升级到第8版了。但是出发点不一样,一个是从功能角度,一个是从应用角度。举一个简单例子(引自《中外专利数据库检索指南》P199-203),现在要检索一个课题,名称是:一种装置,在录像机上能根据用户眼睛凝视的方向自动对物体定位(自动聚焦)。用正常的方法,关键词,自动对焦,录像机?检索结果有很多垃圾,在这个例子中用关键词很难描述这个装置,但是在IPC中也没有什么合适的分类可以利用。这时可以考虑用Derwent手工代码,在初检索中所有与录像机测距和聚焦有关的记录相关的代码是W04-M01D2C,而 S05-D01C5A则包含了非医疗用物体的电气或电子测量,可用于检索依靠手指按压控制或依靠飞行员眼睛运动以控制飞机的方面的课题。将上述两个代码进行逻辑组配,即得到了非常相关的结果。从这个例子可以看出,用Derwent手工代码可以得到一个很满意的结果。

在专利检索中,检索的思路和科技文献大致相同。但是由于专利的一些特点,其检索的自由度可能会更大些。在这,假设你已经对专利有了解了,不懂就去看书吧。

偶的一般做法,了解课题,看需要检索什么,而后就开始初检,找到一些很合适的纪录,找IPC,MC,DC,到处撒网,然后找到一些合适的,同时也排出一些垃圾,再次进行检索,有的时候还会用上一些统计分析方法,找到最合适的MC,DC。这些步骤可能来回好几次,最终才能确定一个很好的检索式。有人觉得很麻烦,但是如果你的数据是用来做分析的时候,就非常有必要的。Rubbish in,Rubbish Out。

在Derwent中还有一个很好的功能就是引证专利检索。可以找到一篇专利所有引证他人或是被引证的数据。这个功能好在,可以看到那些公司引证了这篇专利,你就大概可以做出如下判断:
1、 技术是否从这篇专利所有人那里流失,即别人在上面作了很多开发,改进;
2、 是否后来人有授权可能性;
3、 技术走向,这时可以参考IPC,MC,DC等等。
专利引证这个在专利评估领域非常复杂,可以写本书了,偶也研究不深,不敢乱发言,到此为止。

这些引证数据可在Delphion和Aureka中以非常直观的图形显示,回头贴一些图上来。

在Delphion还有一些其它功能可以帮助你更好的检索和分析数据。
例如文本聚类,还有一个统计功能。这些回头贴图。
在Aureka中,专利检索,分析,管理的功能更强大。可以做出非常好的文本聚类分析,形成直观的专利地图,很强。太强了。

to be continued

第三部分
每次说IPC的时候都会忘记提一点,就是:由于IPC是一个世界性的标准,因此每个国家的专利审查员在对IPC的理解有不同,因此,一篇专利在不同的国家可能会得到不同的IPC分类,这就给专利检索带来很大的难度。但是Derwent的手工代码和分类则不同,只有几百个人在用,因此,在分类上有很大的统一性。
在分类上,通常大家都知道IPC,U.S. Class, ECLA,还有Derwent 的MC和DC,但是还有一个和IPC相关的好东西,不知道大家知道否,就是Catchword。在CA里就有这个,很好用的一个对照表吧。它的意思是对 IPC分类作加工,用一个词可以检索出分布在哪些IPC中。
例如:
ABATTOIRS

building aspects of ABATTOIRS
E04H 5/00
E04B
E04C
E04D
E04F
E04G
equipment for ABATTOIRS
A22B

资料来源:http://www.wipo.int/classifications/fulltext/new_ipc/ipc7/ecw.htm
有兴趣的兄弟可以研究一下,在STN中有,上述网站也有详尽的对照表,或许能给你带来一些帮助。

(注:本文后面还有一些图片附件,但由于无法在梅陇客战(http://202.120.97.86:8080)注册,要求华中的email才可以注册,剩下部分本人(JiangZhanyong)无法下载。)

0 Comments: