一、本文的研究思路
Lucene不是一个完整的全文检索应用程序,是Apache的一个基于Java的开放源代码的搜索工具包,也是目前世界上最为流行的搜索工具包,它可以方便地嵌入到各种应用中实现针对应用的全文检索功能。Lucene以其开放源代码的特性、优异的索引结构和良好的系统架构,得到了越来越广泛的应用。本文使用Lucene设计并实现了一个简单的新闻搜索系统。
Lucene自带建立索引功能和检索查询功能,但是Lucene搜索查询默认的分词结构是对应于英语分词的,要构造一个同时适应于中英文的分析器,我们先要对Lucene的原理机制、功能结构及基于Lucene检索系统的构建过程加深了解,并对其语言分析器Analyzer进行深入研究,以便新的分析器能够对原有分析器进行有效中文分词(本文使用国人编写的庖丁解牛分词器),并能够与索引、检索模块实现无缝链接[4]。解决了这个问题之后其他的就简单了。利用网络爬虫从各种大型网站定期自动抓取有价值的新闻内容,将其保存在本地系统的数据库中,再使用对存储在数据库中的内容建立索引。编辑一个WEB搜索界面,用户输入查询关键词后,后台基于Lucene的搜索引擎对关键字分词并搜索出相应网页并对查询的关键词进行高亮显示,再将其显示在网页结果页中,这样就完成一次完整的查询。
二、本文的研究目的
新闻搜索引擎是相对通用搜索引擎的信息量大、查询不准确、尝试不够等提出来的新的搜索引擎服务模式,通过针对特定领域、特定人群和特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比通用搜索引擎的海量信息无序化,新闻搜索引擎则显得更加专注、具体和深入。
新闻搜索引擎为用户提供的并不是上百甚至上千万相关网页,而是范围极为缩小、极具针对性的具体信息。因此,特定行业的用户更加青睐新闻搜索引擎,是新闻搜索引擎的长期、稳定的群体。
目的相关搜索:JSP+MYSQL基于Lucene的新闻搜索系统开题报告 JSP+MYSQL基于Lucene的新闻搜索系统源代码 JSP+MYSQL基于Lucene的新闻搜索系统论文 JSP+MYSQL基于Lucene的新闻搜索系统答辨稿