数字图书馆检索工具探析

来源：百家汽车网

２０１０年第１期　社科信息　Ｎｏ．１．２Ｏｌ０　ｈ南加明妇Ｉ　ｄ　Ｓｏｃｉａｌ　Ｓｃｉｅｎｃｅｓ　Ｉｎ　Ｘｉｎｊ￣　数字图书馆检索工具探析　王敬云　（雏吾尔自治区痰控中心　乌鲁木齐市，８３０００２）　［内容提要】基于数字图书馆建设现状，提出引进搜索引擎技术，建立数字图书馆检索工具，探讨检　索工具的功能及工作原理。　［关键词】数字图书馆；检索工具；搜索引擎；网络信息资源　［中图分类号］Ｇ２５ｏ．７６　［文献标识码］Ａ　［文章编号】ＸＩＮＫ一００７２（２０１０）０１—０００６—０５　１关于数字图书馆的设想　１．１国内数字图书馆的建设现状　目前，关于数字图书馆还没有一个被公认的定义，从现实建设工作来看，其形式也是多种多样，有　时它是一项国家数字资源系统工程（比如中国数字图书馆工程），有时它更像是一个网上书店（如超星　数字图书馆、书生之家数字图书馆），而有时它更接近于传统图书馆的数字化、网络化（如上海数字图　书馆等）。近几年，我国图书馆的数字化工作和数字图书馆的建设进行得如火如荼，的确取得了很大　的成就，极大地丰富了中文网络信息资源，尤其是学术信息资源，为用户查询和利用信息资源提供了　方便。’　然而，无论是工程浩大的中国数字图书馆【】】、上海数字图书馆［２】、还是清华大学建筑数字图书　馆【３　等等，都仅仅忙于将馆藏信息资源数字化、网络化，而忽视了对信息量巨大的网络信息资源的组　织。　．　我们处在一个信息爆炸的时代，因特息资源以几何级数的速度增长，导致几个问题的出现：　（１）信息过多，用户难于寻找所需信息。带着一定需求的用户在因特网这个信息的海洋中常常迷失方　向；（２）信息更新速度快，具较强的实时性，使人工标引难以跟上信息的增长；（３）信息类型多样，除文　本信息，还有图像、音频、视频等信息，给在传统文献信息资源组织方面经验丰富的图书馆编目员提　出了新的课题。　很多高校图书馆和公共图书馆意识到网络信息资源的重要性，在图书馆门户网站的首页中设立　“网络导航”或“搜索引擎导航”栏目，提供国内外著名搜索引擎门户网站（如Ｙａｈｏｏ、Ｅｘｃｉｔ、Ａｌｔｅｒｖｉｓｔａ、　ｇｏｏｇｌ＠、百度、天网等）的链接以及学科网络资源导航，对用户查询网络资源起到了引导作用，而不是利　用数字图书馆自身的资源为用户提供服务全面的服务，可以说这还不是真正的数字图书馆。　［作者简介］王敬云，　女（汉族），维吾尔自治区疾控中心。　一６一　数字图书馆检索工具探析　１．２我的数字图书馆理念　到底怎样的数字图书馆才是真正意义上的数字图书馆？从根本上来说，数字图书馆是为了解决　网络环境下数字化信息的组织、查询与服务问题【４】。笔者认为判断数字图书馆必须具备这样三个指　标：　第一，数字图书馆具有丰富的数字化资源，包括ＯＰＡＣ书刊目录库、全文数据库、多媒体数据库、　网络数据库、网络信息资源库等等。　第二，数字图书馆能够向用户提供多种类型的信息资源的检索，如书目信息、书刊全文，各种音　频、视频信息，还可提供网络信息资源检索服务，如因特网上ｗｌｅｂ、Ｆ　、Ｇｏｐｈｅｒ、Ｗａｉｓ、Ｕｓｅｎｅｔ等信息资　源。　第三，数字图书馆将所有信息资源进行整合，实现跨库检索，向用户提供统一的检索界面，检索各　种类型的信息。检索到的相关信息在统一的界面中显示。　参照以上三个指标，发现目前国内建设数字图书馆已经具备的一定的资源和技术基础，比如　ＯＰＡＣ书刊目录库的标准化已经实现，自建和购买的全文数据库资源在高校图书馆已经十分丰富，以　上海数字图书馆为代表的图书馆在多媒体信息资源建库和检索方面成就显著，而且信息资源的整合　和跨库检索在技术上已经不成问题，目前亟待解决的问题是加强和完善对网络资源的组织和管理。　然而，如果采用图书馆贯用的人工标引的方式，面对浩如烟海的网络信息资源，别说对所有的网　络信息进行标引，就是能达到０．０１％的标引率也几乎是不可能的。因此，数字图书馆必须采用新的　策略和方式对网络信息资源进行标引，向提供信息检索服务。　１．３设想的提出　以上提出的问题是：建设真正的数字图书馆必须实现对网络信息资源的全面搜集、合理组织和有　效利用，但传统的人工标引方法面对浩繁的网络资源只能”望洋兴叹”，如何解决此矛盾？以笔者之　见，在建设数字图书馆的过程中应引进搜索引擎技术，对网络信息资源采用自动标引和人工标引相结　合的方式。　１．３．１搜索引擎原理　搜索引擎是因特网上最重要的应用之一，它能够在浩如烟海的因特息中找到用户所需的信　息，因此深得广大用户的喜爱。搜索引擎的工作原理是：利用Ｒｏｂｏｔ、Ｓｐｊｄｅｒ、ＷｅｂＣｒａｗｌｅｒ等搜索软件，　即能够从因特网上自动收集网页的数据收集系统，将收集所得的网页内容交给索引和检索系统，索引　和检索系统通过扫描每一个网页中的每一个词，建立以词为单位的倒排文档，再根据关键词在每一个　网页中出现的频率对包含这些关键词的网页进行排序，最后输出排序结果。页面生成系统再将结果　高效地组装成因特网页面。我们就可以通过浏览器看到检索结果了［５】。　在国内，人们习惯于把一些能够提供搜索的门户网站称作搜索引擎（比如Ｙａｈｏｏ），实际上这是一　种误解。从原理上来说，真正意义上的搜索引擎是基于因特网的搜索引擎，这种搜索引擎收集因特　网上几千万到几亿个网页，并且每个网页上的每个词都被搜索引擎所收录，是基于整个因特网的全文　检索，其返回的结果可以具体到一个个相关的网页，所以我们称之为网页搜索引擎，或全文搜索引擎。　利用搜索引擎自动搜集、标引网络信息，这种方式省时、省力，投入小，形成的数据库覆盖面广，可　提供关键词、主题词或自然语言等多种检索途径；但由于未经过人工干预，信息加工的质量往往不高，　从而使得检索的查准率较低，检索效果不佳。　１．３．２值得借鉴的作法一一雅虎的信息组织方式　雅虎的分类目录体系是采用人工标引的方式对网络信息进行组织的成功典范。人们常常把雅虎　的目录服务认为是搜索引擎，其实目录服务和搜索引擎是两个完全不同的概念。目录服务是由编辑　人员将各种网站按主要内容进行分类，组织成一层一层的分类目录。当我们要查找某类网站时，就按　照其属性进入相关类目，一层一层地查找。这类目录服务同时也提供一定的搜索功能，但它的搜索范　一７一　社科信忠２０１０年第１期（总第２０７期　围仅局限在这个人工编制的目录系统内，当用户提交搜索请求后，这个搜索引擎就会在该目录系统中　寻找相关网站，然后作为搜索结果提交给用户，象这种目录服务附带的、基于该目录系统的搜索引擎，　我们一般称之为目录搜索引擎，由于其最后返回的结果是一个个相关网站的地址，我们也称之为网站　搜索引擎。雅虎分类目录能够克服由机器自动标引带来的诸多问题，因此一时成为其他商业门户网　站学习的典范。　但是，雅虎如果仅仅依靠人工标引的分类目录提供搜索服务，也存在许多无法克服的弊端。比如　人工编制主题索引效率低，因而造成建立的数据库规模较小，有些类目下的文件数量有限，有价值的　新站点，新内容反应不及时等。因此，雅虎与专门做搜索引擎的公司进行合作。　虽雅虎公司以“搜索引擎”闻名全球，实际上它只做网站目录，它只有搜索自己网站目录的目录搜　索引擎。而雅虎网站上基于整个因特网的全文搜索引擎是由其他专做搜索引擎的公司提供的，以前　是Ｉｎｋｔｏｍｉ，现在是Ｃｏｏｇｌ￣。其实大多数商业门户网站的搜索引擎都是引进的，如美国在线、微软的　ＭＳＮ都采用“Ｉｎｋｔ￣ａｉ”公司的搜索引擎技术和服务；国内的中国人、硅谷动力、广州视窗均采用百度的　搜索引擎服务；第一华人中文网站新浪在去年１１月２３日宣布采用百度提供的中文网页搜索服务，推　出新的综合搜索引擎系统，在与百度结束合约后，今年８月７日它又宣布与搜索新军慧聪合作，采用　该公司的网神搜索引擎服务。　相比较而言，雅虎将自身的目录服务和Ｇｏｏｇｌ６搜索引擎结合得相当完美。从显示格式来看［６】，雅　虎将检索结果分为“相关分类”、“相关网站”、“相关网页”、“相关新闻”四项，其中“相关分类”、“相关　网站”的内容来自雅虎自己的分类目录，“相关新闻”的内容来自雅虎资料库，而“相关网页”的内容则　是Ｃ￣ｏｌｅ的搜索结果。在用户输入检索词，点击搜索后，雅虎的搜索工具实际上进行的是跨库检索，　同时通过接口技术要求Ｇｏｏｇｌｅ搜索引擎进行搜索，然后雅虎将所有的检索结果以统一的界面显示，看　起来就象是从一个数据库中得到的结果。其响应性能很好，在不到一秒钟的时间里就能提交结果。　雅虎引进Ｇｏｏｇｌｅ搜索引擎，是采用手工方式与机器辅助相互配合对网络信息进行组织，提供统一　的检索界面和显示格式。它具有人工标引和自动标引两方面的优点，值得我们在建设数字图书馆中　学习、借鉴。　１．３．３数字图书馆采用搜索引擎技术的设想　‘　图书馆的编目人员在长期的工作实践中积累了丰富的对信息资源进行分类的理论和经验，在网　络信息资源逐步发展成为一个巨大的、不断迅速增长的资源库以前，图书馆工作人员对传统文献信息　资源的组织是相当成功的。然而，一旦面对网络信息资源，这种人工标引方式就显得力不从心了。以　ＣＡＬＩＳ网络重点学科导航库为例，它是“２１１工程”立项高校图书馆共建项目。其目的是建立在　．　ＴＥＲＮＥＴ网上的导航库，收集整理有关重点学科的网络资源，为这些已立项高校重点学科服务，让在　重点学科领域的师生，以较快的速度了解本领域科技前沿研究动向和国际发展趋势。重点学科导航　库的建设工作进行了近２年，共有４８个图书馆参加该项目共建，各图书馆都投入了大量的人力来完　成该校重点学科导航库的建设。目前已完成２１３个重点学科导航库建设，共收录了６万多个较重要　的学术网站。导航库网址的搜集和摘要都是由人工完成，耗费了大量的人力、物力，而导航库的资源　只是整个网络资源库中微不足道的－／ｌ，部分。所以，在数字图书馆资源建设中引进搜索引擎技术，可　以节省人力、物力、财力，保证资源的完整性、全面性。　　．２数字图书馆检索工具　２．１定义　仅仅是引进的搜索引擎，还不能作为数字图书馆的检索工具，所谓数字图书馆检索工具，是基于　因特息资源和数字图书馆的信息资源库，利用统一的检索平台和用户界面，提供各种类型信息资　源的检索服务的系统。　一８一　．　数字图书馆检索工具探析　数字图书馆检索工具与搜索引擎的区别在于：搜索引擎只能提供因特网资源的检索，而数字图书　馆除此之外，同时兼顾对数字图书馆各个资源库的检索。　２．２功能　数字图书馆检索工具能够配合人工标引方式，对网络信息资源进行标引和组织，面向用户提供网　络信息资源和数字图书馆信息资源库的检索服务。　２．２．１网络信息搜集功能　面对整个英特息资源，数字图书馆检索工具利用搜索软件自动搜集网络信息，结合人工方式　进行标引，按照人工编制的分类目录将被标引的网络信息收入网络信息资源库。　２．２．２检索功能　（１）跨库检索功能　数字图书馆检索工具提供跨库检索功能，用户在使用过程中可以选定多个资源库进行检索，在重　新选择数据库时，还可以保存以前的检索式用于新的资源库的检索中。　（２）支持全文检索　．　数字图书馆检索工具的对网络信息资源进行搜集时，每遇到一个网站时，会将该网站上所有的网　页全部获取下来，将其内容标引后收入到网络信息资源标引库中，只要用户输入查询的关键字在用户　选定的网络信息资源标引库或者其它数据库中出现，含有这个关键字的记录就会作为匹配结果返回　给用户。　（３）提供多途径检索　支持自然语言、关键词、主题词三种检索语言，当用户输入一个短语时，系统根据禁用此词表过滤　掉禁用词，将有检索意义的词保留下来重新构筑检索式。　提供高级检索界面，支持布尔逻辑运算，支持特征宇段检索（如题名、作者、摘要、来源、年代等　等），支持权重检索和相邻检索。　（４）支持目录式分类结构　分类目录具有类聚功能，尤其对于非专业用户能起引导作用。数字图书馆的分类目录与以ｙａｈｏｏ　等商业门户网站的区别在于，它需要涵盖的范围更广，除了网络资源，还有数字图书馆收藏的数字化　资源。　（５）支持多媒体信息检索　在能够提供检索的资源类型上，不仅能够提供文本信息资源检索服务，对于图像、声频、视频等多　媒体信息也能提供检索服务。　２．２．３结果显示功能　（１）支持检索结果排序　在检索结果排序方面，不仅能按时间排序，而且用户可以选择相关性排序。所谓相关性排序，是　指进行自然语言检索时，其检索结果集由包含提问式中任意词的记录组成，以包含提问式中检索词的　多少作为相关性指标对检索结果进行排序，提问式中的词在文章中出现的越多表明它与检索要求越　接近，在显示时就排在最前面。　（２）提供统一的显示格式　检索结果的著录格式清晰明了，系统使用统一界面，对检索结果采用按类别、分层次显示方式。　系统虽然对用户选定的数据库采用跨库检索方式，但是在结果显示时候还是分数据库类型一一列出　匹配记录的提录或摘要信息，用户在浏览题录后，在进一步选择是否需要全文。　（３）提供超文本链接　在显示结果中，对摘要或全文中出现的某一些主题词提供链接点，比如人名“杨振宁”、机构名　“ＣＮＮＩＣ中国互联息中心”、专业术语“后控词表”等等。　一９一　社科信息２０１０年第１期（总第２０７期）　２．３工作原理　２．３．１信息搜集　利用自动搜索机（如Ｒｏｂｏｔ），自动收集网页上的元数据。首先，输入起始网址，一般是一个网站的　主页，搜索从这个网址开始。另外，需要同时输入一定的条件来搜索范围，因为整个网络有　成千上万个网址，如果不加任何约束，搜索几乎是没有尽头的，并会耗尽机器的资源。所以，要通过　过滤、限定从起始网址出发向下搜索的层次等方法来加以，如只在图书馆的内部网、某一专业　网站上等进行搜索。工作时，先从起始网址读入此网页的ＨＴＭＬ源文件，并在其头部搜索（ｍ她）标签　内的元数据，如果发现有符合都柏林核心集的定义和格式，则再检查此网页的元数据是否已在前次搜　索中存人数据库，如是，则用新的元数据覆盖现在的元数据，否则在数据库中加入新的网址和元数据。　接着，找出该网页上所有的链接地址，将它们按顺序存入一个先进先出地址队列的末尾，下一个循环　开始后，从地址头取出一个网址，如它符合条件，且和已搜索过的网址不重复，则再次开始搜索此　网页的元数据和链接地址，否则，跳过此网址，从地址队列中取出下一个网址。整个过程周而复始，直　到地址队列中所有的网址都被搜索一遍。　网址的收集和处理由机器自动完成，但必须由人工最后审定。为此必须有一个明确的选择标准　和策略，任何可以访问的可靠的数据源都在选择范围之内。更新及时，发现题目或标题有所改动，就　应该进行更新。同时，对其它有关信息资源（如网络数据库、书刊目录信息等）进行收集，最终建立一　个以学术信息为主的检索工具，这也是数字图书馆区别与商业门户网站的地方。　２．３．２索引和检索　因特网的所有网页都在被索引范围之内。应用搜索引擎技术分析网页中所有句子以确定关键　词，这些关键词将与某一词表相兼容，并形成一个后控词表。摘要将由关键词所涉及的网页内容组　成。同时，索引人员将对记录进行审查，以确定其是否符合选择标准，所有关键词和所做摘要是否恰　当，后控词表是否得到正确应用。然后这条记录才被增加到网络信息资源库中去。在检索过程中，检　索工具对符合检索策略的命中记录做出标记，显示检索结果。　本文基于网络搜索引擎技术，提出建立数字图书馆检索工具的设想。检索工具的实现除了需要　技术支持外，还需要信息量丰富的资源库和合理的图书馆的结构模型作为支撑。开发数字图书馆的　结构模型时，必须坚持该结构具有良好的兼容性、公共性、灵活性和可扩展性，能够方便地将各供应商　开发的应用程序（如搜索引擎技术）集成进来。数字图书馆结构模型在坚持上述原则的同时，主要目　标是为网络环境下信息资源的发现、描述、组织、查询、检索和为以网络为依托的知识、信息交流，提供　一个支撑结构和环境，这首先需要解决异构系统间的互操作、各种转换和翻译（不同规范的元数据、查　询请求之间）等技术问题。对于这方面的研究还有待进一步深入。　参考文献：　ｌ　ｈｔｔｐ：／／ｗｗｗ．ｎｌｅ．ｇｏｖ．ｃｒｄｄｌ０　２　ｈｔｔｐ：／／ｄ１．ｅａｓｔｄａｙ．ｃｃｍ／　３　ｈｔｔｐ：／／１６６．１１１．１２０．５５：８００１／　．　４韩慧琴，刘柏嵩．数字图书馆中的知识发现．情报学报，２００１，（３）　５中文搜索引擎核心技术之争．黄海．图书馆杂志，２００１，（３）　６　ｗｗｗ．ｙａｈｏｏ．ｃｏｒｎ．ｃｎ　（责任编辑：晓建）　一１０一　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文