solr下载
地址: http://archive.apache.org/dist/lucene/solr/
1 | wget http://archive.apache.org/dist/lucene/solr/5.0.0/solr-5.0.0.tgz |
solr部署配置
solr服务器 host:/usr/local/solr-5.0.0
题库配置 /usr/local/solr-5.0.0/server/solr/question
文库配置 /usr/local/solr-5.0.0/server/solr/wenku
- conf 配置文件目录
- data-config.xml 数据库索引配置文件
- schema.xml
- solrconfig.xml
- solrcommand.php 用来重建索引的文件
- dic 词库
搜狗词库转换
搜狗词库转换为txt文件
在solr分词的时候需要一些词库,在搜狗细胞词库可以下载到.scel
的词库.但是需要转成成我所需要的.在网络找到一份python
的处理代码.可以将词库提取出来.稍微修改了一下main
里读取目录文件的部分和输出格式.就得到了我所需要的词库文件.
代码文件solr配置/sougou.py
分批处理
由于服务器太烂了,一次性读取导致内存不足,出现索引建不全的莫名其妙的错误.所以需要分批建索引
脚本参考 solrcommand.php
在data-config.xml的query节点使用limit来分批处理数据,比如1
query="select * from tb_content limit ${dataimporter.request.begin},50000 "
使用了一个begin的参数来每次分批处理50000条记录.
然后访问的连接参数,第一次clean=true清理旧的索引,后面的clean=false不清理索引.访问连接如下
```
http://localhost:8080/solr/core1/dataimport?wt=json&commit=true&clean=true&command=full-import&begin=0
http://localhost:8080/solr/core1/dataimport?wt=json&commit=true&clean=false&command=full-import&begin=50000
http://localhost:8080/solr/core1/dataimport?wt=json&commit=true&clean=false&command=full-import&begin=100000
….