solr下载

1	wget http://archive.apache.org/dist/lucene/solr/5.0.0/solr-5.0.0.tgz

solr部署配置

solr服务器 host:/usr/local/solr-5.0.0
题库配置 /usr/local/solr-5.0.0/server/solr/question
文库配置 /usr/local/solr-5.0.0/server/solr/wenku

conf 配置文件目录
- data-config.xml 数据库索引配置文件
- schema.xml
- solrconfig.xml
- solrcommand.php 用来重建索引的文件

搜狗词库转换为txt文件
在solr分词的时候需要一些词库,在搜狗细胞词库可以下载到.scel的词库.但是需要转成成我所需要的.在网络找到一份python的处理代码.可以将词库提取出来.稍微修改了一下main里读取目录文件的部分和输出格式.就得到了我所需要的词库文件.

代码文件solr配置/sougou.py

由于服务器太烂了,一次性读取导致内存不足,出现索引建不全的莫名其妙的错误.所以需要分批建索引

脚本参考 solrcommand.php

在data-config.xml的query节点使用limit来分批处理数据,比如

1	query="select * from tb_content limit ${dataimporter.request.begin},50000 "

使用了一个begin的参数来每次分批处理50000条记录.