跳转到主要内容

探索:搜索性能和最佳做法

Cheyenne V. avatar
作者:Cheyenne V.
更新于昨天

搜索性能直接影响Meltwater平台中关键功能的速度和稳定性,包括探索新闻通讯监测分析导出API。效率低下或过于复杂的布尔技术搜索会导致错误或显著拖慢响应速度。

遵循编写高效搜索查询的最佳做法,即可确保迅速稳定地使用洞察分析和报告工具。

本文将介绍:


优化搜索

标记为红色的问题危害性尤其高,并会显著降低搜索性能。

一般来说,这些问题同时出现得越多,负面影响就越大。

不利于搜索性能

反面示例

修正方法

正面示例

大型布尔搜索技术表达式

如果我们有一个包含数千个关键字的大型查询,或者有许多大型NEAR运算符和数百个通配符,将导致查询速度缓慢/受阻。

尽量遵循本文所有建议,最大限度简化查询语句,使其体量更小、更易于执行

对包含超过10个字符的字词使用通配符

internatio*[10个字符]

在通配符前最多使用9个字符

internat*[8个字符]

过度使用通配符

D*C*

问题原因:搜索系统将检索所有以字母“D”或“C”开头的字词,且字词长度不限,这会导致检索量极其庞大

DC OR "D.C."

通配符太多,通常可以删除

shop*

尽量删除通配符,并明确列出不同的关键字版本

shop OR shops OR shopped OR shopping

大型NEAR运算符

President NEAR/100 Trump

确保NEAR运算符不超过10个。在大多数情况下,如果使用超过10个NEAR运算符,则“AND”运算符会产生相同的结果,但会降低系统负载

President NEAR/10 Trump

通配符与NEAR运算符结合使用

shop* NEAR center*

尽量删除通配符,并明确列出不同的关键字版本

(shop OR shops OR Shopped OR shopping) NEAR (center OR centers)

偏长NOT筛选条件排除项

NOT 2.0/不包括市场研究报告、股票市场最新动态和公关新闻稿发布

使用ContentCategory筛选条件

contentCategory:("press_releases" OR "market_research_reports" OR "stock_market_news")

不必要的通配符

"example.com/*" OR "ABC:*"

由于“分词处理”机制,文本不仅会按空格分隔,还会根据特殊字符进行切分。例如,搜索“example.com”也会匹配“example.com/other”→ 无需在特殊字符后添加通配符,例如/ : ;等。

"example.com/" OR "ABC:"

URL运算符

使用SITE:运算符,不带通配符且不带http(s)://

LINK运算符

使用CONTAINSLINK:运算符,不带通配符且不带http(s)://

containslink:"www.meltwater.com/"

引号中的长句

“Meltwater拥有27000名全球客户,遍布六大洲的50个办事处,以及2300名员工,是全球品牌的行业合作伙伴,助力其发挥影响力。”

  1. 用少量关键字和NEAR运算符替换

  2. 如果目的是排除公关新闻稿发布的联合发布内容,并且已从样本文字中挑选句子,则建议查看公关新闻稿发布contentCategory排除项

  1. Melwater NEAR "行业合作伙伴" NEAR "全球品牌"

  2. contentCategory: "press_releases"

将不需要组合的关键字用NEAR或AND运算符组合(例如翻译成不同语言)

(beach OR شاطئ OR 海滩 OR plaža OR pláž OR strand OR plage OR παραλία OR spiaggia)

NEAR/10

(volleyball OR الكرة الطائرة OR 排球 OR odbojka OR volejba OR volleybal OR volley-ball OR βόλεϊ OR pallavolo)

只组合相关关键字,例如,英语与英语、阿拉伯语与阿拉伯语、中文与中文等。

→ 导致搜索需要处理的关键字组合大幅减少

beach NEAR/10 volleyball OR شاطئ NEAR/10 الكرة الطائرة OR

海滩 NEAR/10 排球 OR

plaža NEAR/10 odbojka OR

pláž NEAR/10 volejbal OR

strand NEAR/10 volleybal OR plage NEAR/10 volley-ball OR παραλία NEAR/10 βόλεϊ OR spiaggia NEAR/10 pallavolo

重复的关键字

  1. wine OR vino OR wein OR víno OR vino OR vino

  2. Disney OR "Walt Disney" OR "Walt Disney Company"

删除重复的关键字,尤其是带有通配符的关键字

  1. wine OR vino OR wein OR víno

  2. Disney


使用自定义类别和组合搜索

使用自定义类别和组合搜索时,切记:

  • 它们使布尔搜索技术表达式变得更为复杂,而非加以简化。

  • 在多项子搜索中重复使用筛选条件会降低性能。

修正示例:

  • 10项业务部门 (BU) 搜索使用相同的3个排除项。

  • 这些均合并为一项搜索 → 共处理了30项筛选条件。

  • 解决方案:仅在最终组合搜索中应用一次排除项(除非它们在其他地方单独使用,例如在新闻通讯或信息中心中)。


技巧和窍门

在Meltwater平台构建搜索时,须了解特定布尔搜索技术结构和运算符如何影响系统性能。下列要点解释了为什么某些搜索技术会拖慢搜索速度及其替代方案。

通配符

  • 什么是通配符?通配符是指星号*,用于匹配某个字词的不同形式。例如,shop*会返回:shop、shops、shopping、shopped等。

  • 有什么问题?使用过多通配符,或将其置于超过10个字符的长词根之后,会拖慢搜索速度。这是因为系统必须检查大量的字词变体。

  • 建议改用以下方式:使用较短的词根(最多9个字符),并尽可能明确列出具体的关键字变体形式。

须谨慎使用NEAR运算符

  • 什么是NEAR运算符?这是一种查找相邻字词的方法。示例:President NEAR/10 Trump会查找这些字词彼此之间相距10个字词以内的文章。

  • 为什么这是个问题?较远的距离(例如NEAR/100)需要更多的算力,并可能返回过多不相关的结果。通常只需使用AND就能更快获得类似的结果。

  • 建议改用以下方式:使用较短的NEAR距离(不超过10个字符),如果近距离并不重要,则使用AND。

避免将通配符与NEAR运算符结合使用

  • 为什么?通配符和NEAR运算符本身都属于资源密集型。将它们组合起来(例如,shop* NEAR center*)会迫使系统计算更多组合,这会显著拖慢速度。

  • 修正方法:删除通配符并明确列出一些可能的字词。示例:(shop OR shops) NEAR (center OR centers)

特殊字符已拆分字词

  • 系统具体操作:搜索引擎对文本进行了“分词”处理,不仅用空格拆分字词,还用标点符号(例如/、:、.等)拆分字词。

  • 重要性说明:如果搜索"example.com/*",使用了不必要的通配符。系统已经识别出“example.com”包括“example.com/page”或“example.com:8080”等内容。

  • 修正方法:只需搜索"example.com/" 或"ABC:" ,去掉*。

使用引用长句

  • 引用像样本文字或公司简介这样的长篇文字,会导致系统匹配确切的句子结构,这通常效果不佳,并且可能会拖慢处理速度。

  • 修正方法:使用带NEAR的几个关键字词。例如:Meltwater NEAR“行业合作伙伴”而非复制整个句子

重复的关键字会导致冗余

  • 在查询中多次添加同一个字词(尤其是使用通配符时)会增加不必要的负担。

  • 修正方法:删除重复内容。示例:vino OR vino OR vino → 只列出 vino。


💡 提示

需要更多帮助?请随时通过在线聊天与我们联系,或查看我们的“客户社区”。

寻找答案并向Meltwater支持和社区专家处获取帮助。


这是否解答了您的问题?