使用CloudSearch 五步搞定云中文档搜索

云计算
在本文中, Judith Myerson介绍了使用亚马逊CloudSearch来创建搜索索引的五个必须步骤,而CloudSearch正是这样一个为云计算中文档创建搜索索引的有用工具。

亚马逊CloudSearch是一个为云计算中文档创建搜索索引的有用工具。这项服务是基于使用文档现有属性项的,它可允许开发人员新增新的属性项以便于对搜索索引进行微调。

这里,我选择了一个LibreOffice Writer文档以用于说明如何使用CloudSearch来创建搜索索引和修复问题。出于演示的目的,我所选的文档较小,这样就可确保创建索引成本更低。

创建搜索索引共需五个步骤:准备文档、启动亚马逊CloudSearch、定位索引字段源、增加索引字段以及运行测试搜索。如果测试结果是成功的,那么你就可以使用相同的索引来搜索其他的LibreOffice文档。

步骤1:准备一个样本文档

  • 选中File标签,选择Properties。
  •  在General Properties标签中,确保选中Apply the user data多选框。
  • 在Tools标签下的Options,在LibreOffice User Data文本框中输入你的名字。
  • 选中Use Data for document properties多选框。
  • 点击OK。
  • 在Edit标签下,打开Record Changes。
  • 进行必要的编辑。
  •  以LibreOffice Writer的格式(.odt)保存文档文件,然后以微软的Word格式(.doc 或 .docx)保存。因为CloudSearch并不会接受LibreOffice Writer (.odt)格式的文档文件。

步骤2:启动CloudSearch

  • 登录到AWS的管理控制台。
  • 选择CloudSearch。 在相关区域选择激活域。
  • 点击Upload Documents。
  • 选择 File(s) on my local disk并点击 Browse 选中你需要上传的样本文件。
  • 点击Continue。

在CloudSearch分析样本文档之后,相关界面会显示索引字段的一个列表:

  • application_name
  • author
  • content
  • content_type
  • creation_date
  • creator
  • date
  • language
  • last_author
  • last_modified
  • last_printed
  • resourcename
  • revision_number
  • total_time

上述列表中的斜体标记表示并没有针对域进行配置。只有解决了这一问题,你才能继续下一步。

点击Cancel。

步骤3:定位正确配置的索引字段源

  • 在Help标签下选择About LibreOffice以获得application_name 字段的源。
  • 在Tools标签的Options中选择Language Settings以获得Language字段的源。英语(美国)是默认选项。
  • 在File标签的Properties中选择General Properties以获得以下表格中字段的源。

在向域配置新增索引字段之前,你可以确定是删除还是保留这些字段。

步骤4:新增索引字段

  • 登录CloudSearch,打开相关界面。
  • 选择一个激活域名。
  • 选择Indexing Options。
  • 每次对下述每一个字段点击Add Index Field。

注:在默认情况下,CloudSearch将把每个字段自动设置为可搜索。

  • 点击Submit。
  • 点击Run indexing,重新编制索引。
  • 点击OK开始编制索引。一般来说,编制和部署小型索引文件只需花费数分钟时间,而编制和部署大型索引文件则可能需要花费数个小时之久。索引文件越小,重建搜索索引文件的成本就越低。

步骤5:提交搜索请求

  • 选择Dashboard。
  • 从S3 buckets或你的本地文件系统中选择待上传文件,并点击Upload Documents。
  • 点击Run a Test Search。
  • 在Search框内输入一个单词。例如,“vulnerability”。
  • 点击Go,CloudSearch就会以文档相关度分数降序的次序列出索引字段。

注:文档相关度得分是根据文档中搜索词出现次数与整个域中所有文档中搜索词出现次数的比值而得到的。在本文的示例中,我们使用了一个文档。

以下是一个文档的结果:

该文档相关度得分为0.5532488。搜索词被发现一次。

创建者和作者是Judith。

***的作者是Judith。

该文档被修改过六次。

语言默认为美国英语(en-US)。

创建者和作者是Judith。

创建时间为2014年6月20日10:08:15。

内容是:生物漏洞评估变更。

修改日期为12:57:38。

内容类型为application/vnd.openxmlformats(Word docx)。

资源名称Biometric vulnerability assessment.docx。

总之,对一个小文件运行测试搜索可确保处理成本较低。如果测试结果是成功的,那么你就可以使用相同的索引来对大量的文档进行搜索。

原文链接:http://www.searchcloudcomputing.com.cn/showcontent_88060.htm

责任编辑:Ophira 来源: TechTarget中国
相关推荐

2009-08-11 09:47:01

Spring整合Str

2017-08-22 18:34:24

WinLicense软件授权

2012-04-13 16:21:47

亚马逊云计算CloudSerach

2009-08-18 14:15:12

2016-09-09 01:07:06

数据中心容量规划数据中心

2014-08-11 10:10:39

linux

2021-07-26 09:35:26

SQL数据库优化

2023-09-18 14:39:02

2017-09-27 11:00:50

LinuxBash使用技巧

2017-01-06 08:47:53

2017-06-01 12:30:59

SQL云计算云端

2009-12-11 13:31:31

策略路由配置

2011-07-26 10:18:53

2022-02-12 11:00:33

FTP网络协议文件传输

2011-12-22 12:37:17

JavaJFreeChart

2015-07-09 15:16:47

2012-09-04 15:32:47

搜狗文档

2009-11-05 10:01:26

Visual Stud

2021-09-14 10:25:12

云计算云计算环境云安全

2010-10-22 11:31:53

SQL Server自
点赞
收藏

51CTO技术栈公众号