使用环境:
solr4.4.0
tomcat7.0.64
准备好需要导入的文件
将下列文件夹中的jar包导入到solr-server\solrhome\collection1\lib
中。
solr-4.4.0\dist
solr-4.4.0\contrib\extraction\lib
在solr-server\solrhome\collection1\conf\solrconfig.xml
中加入如下配置。
<!--该操作的意义在于,在solr中加入dataImportHandler插件-->
<requestHandler name="/dataimport" class="solr.DataImportHandler">
<lst name="defaults">
<str name="config">data-config.xml</str>
</lst>
</requestHandler>
D:\NLZ_HD\solr-server\solrhome\collection1\conf\data-config
中加入如下配置,该文件夹需自己创建。<!--该操作的意义在于,配置实体-->
<dataConfig>
<dataSource type="BinFileDataSource"/>
<document>
<entity name="file" processor="FileListEntityProcessor" dataSource="null"
baseDir="D:\NLZ_HD\solr-server\data\CNNOJIT" fileName=".(doc)|(pdf)|(docx)|(txt)|(csv)|(json)|(xml)|(pptx)|(pptx)|(ppt)|(xls)|(xlsx)"
rootEntity="false">
<field column="file" name="id"/>
<entity name="pdf" processor="TikaEntityProcessor"
url="${file.fileAbsolutePath}" format="text">
<field column="Author" name="file_author" meta="true"/>
<field column="text" name="file_text"/>
</entity>
</entity>
</document>
</dataConfig>
solr-server\solrhome\collection1\conf\schema.xml
中添加如下配置。<!--该操作的意义在于,配置`data-config`需要的域-->
<!--自定义field开始-->
<field name="file_text" type="text_ik_Synonym" indexed="true" stored="true" multiValued="false"/>
<field name="file_author" type="string" indexed="true" stored="true" multiValued="false"/>
<field name="file_keyWord" type="text_ik_Synonym" indexed="true" stored="true" multiValued="true"/>
<!--自定义field结束 -->