Solr配置详解

时间： 2023-06-25 | 分类： Solr 搜索引擎 | 字数： 6903 字 | 阅读约： 14分钟

Solr配置详解

1. 目录结构说明

bin: Solr控制台管理工具存在该目录下。如：solr 等。 
contrib: 该文件包含大量关于Solr的扩展。 
dist: 在这里能找到Solr的核心JAR包和扩展JAR包。当我们试图把Solr嵌入到某个应用程序的时候会用 到核心JAR包。
docs: 该文件夹里面存放的是Solr文档，离线的静态HTML文件，还有API的描述。 
example: 包含Solr的简单示例。 
licenses: 各种许可和协议。 
server: solr应用程序的核心,SolrCore核心必要文件都存放在这里。

#contrib
analysis-extras: 该目录下面包含一些相互依赖的文本分析组件 分词器相关。 
clustering: 该目录下有一个用于集群检索结果的引擎。 
dataimporthandler: DIH是Solr中一个重要的组件，该组件可以从数据库或者其他数据源导入数据到 Solr中。 dataimporthandler-extras: 这里面包含了对DIH的扩展。 
extraction: 集成Apache Tika，用于从普通格式文件中提取文本。 
langid: 该组件使得Solr拥有在建索引之前识别和检测文档语言的能力。 
prometheus-exporter:  采集监控数据并通过prometheus监控 solr监控相关。 velocity：包含一个基于Velocity: 模板语言简单检索UI框架。

#server
contexts: 启动Solr的Jetty的上下文配置。 
etc: Jetty服务器配置文件，在这里可以把默认的8983端口改成其他的。 
lib: Jetty服务器程序对应的可执行JAR包和响应的依赖包。 
logs: 默认情况下，日志将被输出到这个文件夹。 
modules: http\https\server\ssl等配置模块。 
resources: 存放着Log4j的配置文件。这里可以改变输出日志的级别和位置等设置。 
scripts: Solr运行的必要脚本。 
solr: 运行Solr的配置文件都保存在这里。solr.xml文件,zoo.cfg文件，使用SolrCloud的时候有 用。子文件 夹configsets存放着Solr的示例配置文件。每创建一个核心Core都会在server目录下生 成相应的core 名称 目录。 solr-webapp：Solr的平台管理界面的站点就存放在这里。 
tmp: 存放临时文件。

2. SolrCore结构

SolrCore内核：是运行在Solr服务器中的具体唯一命名的、可管理和可配置的索引，即内核就是Lucene中说到的索引。一台solr服务器可以托管一个或多个内核

阅读全文 »

Solr基础

时间： 2023-06-24 | 分类： Solr 搜索引擎 | 字数： 1831 字 | 阅读约： 4分钟

Solr基础

1. solr简介

为了在CNET 公司网站上添加搜索功能，Yonik Seely于2004年创建了Solr。并在2006年1月，它成为Apache软件基金会下的一个开源项目。并于2016年发布新版本Solr 6.0，支持并行SQL查询的执行,目前最新的版本是8.6.0

阅读全文 »

Lucene底层高级

时间： 2023-06-23 | 分类： Lucene 搜索引擎 | 字数： 3730 字 | 阅读约： 8分钟

Lucene底层高级

1. 底层存储结构

lucene的索引结构是有层次结构的:

索引
一个目录一个索引，在Lucene中一个索引是放在一个文件夹中的,同一文件夹中的所有的文件构成一个Lucene索引

阅读全文 »

Lucene应用实战

时间： 2023-06-22 | 分类： Lucene 搜索引擎 | 字数： 4704 字 | 阅读约： 10分钟

Lucene应用实战

1. 索引创建和搜索流程

1.1 索引创建流程

一些要索引的原文档(Document)数据

采集数据分类： 
1、对于互联网上网页，可以使用工具将网页抓取到本地生成html文件。
2、数据库中的数据，可以直接连接数据库读取表中的数据。 
3、文件系统中的某个文件，可以通过I/O操作读取文件的内容。

如我们要分析的数据内容是

Lucene Core is a Java library providing powerful indexing and search features, as well as spellchecking, hit highlighting and advanced analysis/tokenization capabilities. The PyLucene sub project provides Python bindings for Lucene Core.

Solr is highly scalable, providing fully fault tolerant distributed indexing, search and analytics. It exposes Lucene's features through easy to use JSON/HTTP interfaces or native clients for Java and other languages.

The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models.

创建文档对象, 进行词法分析,语言处理, 将原文档传给分词器(Tokenizer)形成一系列词(Term)

阅读全文 »

Lucene基础

时间： 2023-06-21 | 分类： Lucene 搜索引擎 | 字数： 2505 字 | 阅读约： 5分钟

Lucene基础

1. 数据检索的问题

原始方式
改进后的方式
为了解决数据库压力和速度的问题，我们的数据库就变成了索引库，我们使用Lucene的API的来操作服务器上的索引库。这样完全和数据库进行了隔离

阅读全文 »