Apache-solr5.0搜索-部署

solr下载

地址: http://archive.apache.org/dist/lucene/solr/

1
wget http://archive.apache.org/dist/lucene/solr/5.0.0/solr-5.0.0.tgz

solr部署配置

solr服务器 host:/usr/local/solr-5.0.0
题库配置 /usr/local/solr-5.0.0/server/solr/question
文库配置 /usr/local/solr-5.0.0/server/solr/wenku

  1. conf 配置文件目录
    • data-config.xml 数据库索引配置文件
    • schema.xml
    • solrconfig.xml
    • solrcommand.php 用来重建索引的文件
  1. dic 词库

搜狗词库转换

搜狗词库转换为txt文件
在solr分词的时候需要一些词库,在搜狗细胞词库可以下载到.scel的词库.但是需要转成成我所需要的.在网络找到一份python的处理代码.可以将词库提取出来.稍微修改了一下main里读取目录文件的部分和输出格式.就得到了我所需要的词库文件.

代码文件solr配置/sougou.py

分批处理

由于服务器太烂了,一次性读取导致内存不足,出现索引建不全的莫名其妙的错误.所以需要分批建索引

脚本参考 solrcommand.php

在data-config.xml的query节点使用limit来分批处理数据,比如

1
query="select *  from tb_content limit ${dataimporter.request.begin},50000 "

使用了一个begin的参数来每次分批处理50000条记录.

然后访问的连接参数,第一次clean=true清理旧的索引,后面的clean=false不清理索引.访问连接如下
```
http://localhost:8080/solr/core1/dataimport?wt=json&commit=true&clean=true&command=full-import&begin=0
http://localhost:8080/solr/core1/dataimport?wt=json&commit=true&clean=false&command=full-import&begin=50000
http://localhost:8080/solr/core1/dataimport?wt=json&commit=true&clean=false&command=full-import&begin=100000
….