长尾理论的外延及运用

2021-05-25 24200 数据库理论论文

本文作者:豆敏 单位:河南职业技术学院

根据CNNIC(中国互联网中心)最新的调查指出,我国民众有84%曾使用过Internet的经验,说明Internet已经深入国人的生活之中,而民众对于Internet的依赖性也越来越深。由于网络上使用者间互相交流的资料量十分庞大,搜索引擎的兴起,更是带领网络使用者进入另一个潮流。CNNIC在2007年2月的调查中发现,过去一周有84.14%的网友,曾经有过搜索行为。随着网络的普及,网友们对于网络上的信息依赖程度日益加深,搜索行为也成为网络生活中不可或缺的一环。本篇论文通过将长尾理论应用在搜索关键词中,说明如何将其有效运用在高校文献数据库浏览量管理上,通过对长尾关键词的运用,增加文献的浏览量。

一、长尾理论的内涵与外延

1897年,意大利经济学者帕列托发现了80/20法则,即20%的人口享有80%的财富;80%的收获,来自于20%的付出;80%的结果,归结于20%的原因。如果能找到关键的20%,并分配多数资源,那么就可以花最小的力气,赚到最多的钱。“一分耕耘,一分收获”,并不能解释现实世界中大部分的情况。这样的不平衡,出现在几乎所有的工作领域与生活范围:在工作方面,大部分的员工对公司的收益来说是没有正面帮助的,少数的顾客为公司带来大部分的利润,少数居高位的人拿走了大部分的酬劳。集中精力在20%的成效上,就能发挥最大的效益。2004年10月,《连线》杂志主编ChrisAnderson在一篇文章中,首次提出了长尾理论:只要途径够多,非主流的、需求量小的商品“总销量”也能够和主流的、需求量大的商品销量抗衡。长尾就是80%的过去不值得一卖的东西,长尾实现的是许许多多小市场的总和。由此可见,长尾理论的适用对象,是瞄准“超途径”,例如Internet、超市、大型书店、连锁店,有点像是用乱枪打鸟的方式来平衡收益。

二、长尾理论的应用

通过文献探讨可以得知,长尾理论的基础即80%的效益是由20%的产品所达成的,在图书馆中也存在这样的状况。以超星电子书库为例“,长尾关键词”总是带起流量的关键点,换句话说80%的流量是由20%的文献所创造,但是我们也不可以忽视其他80%的文献,因为他们未必没有阅读效果。文献的多样性符合长尾理论的应用,后面许多不热门的文献虽然不能带来高人气,但是尾巴一拉长,其他80%的关键词所能带来的效益,未必少于前面20%的关键词。并且站在读者的角度分析,其余80%的文献,由于数量丰富,也能够丰富读者的选择,拓宽他们的知识面。由于热门文献在读者管理数据库中往往有非常庞大的信息量,图书文献业界基于提高文献流通率,便于有效运用长尾理论。这将有助于教育部门降低文献采购成本,以较少的经济成本完成较好的教育效果。以长尾理论来描述文献类型与文献浏览量的关系,便得出下结论:80%的浏览量是由20%的热门文献带来的,而剩余20%的浏览量则是由占据80%的非热门文献带来的。

1.关键词选择搭配技巧。根据潜在读者或目标读者在搜索引擎中需要输入相关词语找到相关文献,就产生了关键词的概念,是我们通过搜索引擎提高文献浏览量必须围绕的技术核心。首先确定核心关键词,再围绕核心关键词进行排列组合产生关键词组或短句。笔者认为选择关键词有以下技巧:①站在读者的角度考虑问题;②将关键词进行多重排列组合;③不用意义太广泛的关键词;④不用与自己无关的关键词;⑤控制关键词数量。在这里还要谈到关键词密度,即关键词在网页中出现的频率,就是在一个页面中,占所有该页面中整体的文字的比例。

2.长尾关键词的设置。热门文献的关键词在搜索结果产生后,资料量非常的庞大,冷门的关键词在搜索结果后,资料量也会减少。我们将中间的主关键词假设为热门的关键词,两边的延伸关键词设为较为冷门的关键词,也就是长尾理论的尾巴部分,通过排列组合,当读者搜索时设立的条件缩小时,就容易让文献流通率增加。长尾关键词一般有这么几种形式:一是定位精确度高的词语,此类关键词针对一些有明确目标需求的读者,这类人群对文献内容有着明确的认知程度,但是这部分人群是读者流量的一小部分。二是扩展出来的关键词,这是对文献内容有模糊概念的访问人群设计的关键词。三是即将有可能成为读者使用并且找到相应文献的关键词,这类关键词语可以理解为比较长尾性关键词语,可能是周边相关的延伸词,或是与网站内容扩展出的相关词。一般读者阅读数据的管理不管在技术上、时间上及相关连接上或许都比较不足,我们通过概念设计,将我们分析采样的主要样本假设为热门文献,其他分析样本设为较为冷门的文献,也就是长尾理论尾巴的部分,通过排列组合,当分析读者的文献选择的时候所设立的条件缩小时,就可以统计分析出针对性的结果。

三、分析过程

1.数据分析。笔者利用所在单位的文献流通管理系统归纳出较为热门的文献类别,以本单位的超星数据库部分文献浏览量数据为来源,挑选“玄幻小说”“、古典文学”和“人物传记”作为长尾关键词,使用关键词分析工具GoogleAdWords:KeywordTool,通过六周的观察及分析,每个星期观察一次其浏览量数据,得到这样的结果:“玄幻小说”的浏览量从第一周到第六周分别是194、159、126、163、101、209;“古典文学”的浏览量为62、87、145、74、48、121;“人物传记”的浏览量为51、61、46、64、77、92。计算各个长尾关键词浏览量的平均值“,玄幻小说”六周来平均浏览量为159“,古典文学”六周来平均浏览量为90“,人物传记”六周来平均浏览量为65。通过数据比较,也能检验出长尾关键词在浏览量方面的应用。

2.影响文献浏览量排名差异的因素。影响文献浏览量排名差异的因素很多,因为本研究的数据是由所在单位的文献管理系统所提供,所以在硬件、软件架构都一样的情况下,做比对较为客观。经过观察,大致分为以下三种因素:①文献名称。文献的名称是搜索引擎机器人在检索时非常重要的一个关键点,名称设定的好坏将影响到检索排名的差异,适度地将文献内容的关键词设定在文献名称中,会有助于文献浏览量的排名。②文献内容的分布。文章内容的关键词对于排名也有一定程度的影响,在文献探讨中有提到,关键词的分布原则堪称无所不在、有所侧重。文献最吸引注意力的地方、超链接、图片ALT属性都是可以设定关键词的地方.尤其是图片ALT属性,现在越来越多图文并存的文章,如果没有设定图片ALT属性,搜索引擎在检索的时候就不能了解此张图片的内在涵义,所以设定图片ALT属性,不仅可以让使用者清楚地了解图片的说明,也可以顺利让搜索引擎检索。③文献的时效性。与其他类似的文献相比,先发布的文献比较快得到检索,自然在数据库里比其他文献多一些曝光的机会。

在上文分析中,我们所讨论的是长尾关键词的排名分析,而所观测的长尾关键词都是设定在文献标题及文献关键词中,这两项是影响排名重要的因素。文献标题的适切与否将会影响搜索结果的排名,所以数据库内容厂商在发布文献时,要好好思考文章标题的写法,适度地将关键词设在标题中,以利于搜索引擎最佳化;而文章关键词的位置及密度也很重要,在文献探讨中都有提及,才可以达到提升排名的效果。

经过实践结果分析,适切的标题在文献搜索中会得到较好的排名,在下标题时一定要深思熟虑,而不能随心所欲,不仅可以提高搜索排名,更可以吸引读者的点阅。在文章中,关键词可说是无所不在、有所侧重,擅用超链接、图片的Alt属性及内文标题的用法,达到加强关键词的效果,但是切勿过度堆砌关键词,对读者而言,过度的关键词会造成阅读上的反感,即所谓广告过头的意思。所以在尺度的拿捏上需要小心、谨慎,也需要靠长时间的观察调整,以达到最佳的效果。

四、结论与未来研究方向

通过搭配关键词与延伸关键词的组合,观察文献搜索流量收录的状况,并且观测其排名的位置及变动状况,我们的成果是:热门文献对于文献搜索流量的排名提升有巨大作用,长尾理论应用在关键词上得以验证。本论文利用长尾理论应用在搜索关键词上是一个新的想法,更能帮助文献信息业界和数据内容提供商以最小的成本达到最大功效。本研究可再延伸的两个方向:一是关键词精准设置。由于关键词在搜索引擎扮演着重要的角色,因此如何精准的设定文献的关键词成为主要问题。例如百度最近推出关键词广告服务,宣称只要使用关键词广告后,可以大量增加曝光度、网站知名度迅速提升,带来更多的商机。所以,在未来可以针对这个部分再做更进一步的分析研究。二是关键词语意分析。在搜索引擎中,搜索字词的语意分析是一门学问。在中文的环境中,我们如何去断词、如何知道使用者想要查询的字词都与查询结果息息相关。这个部分不仅与搜索引擎的人工智能有关,更是信息搜索中重要的一环,所以在未来可以朝这个方向去研究。