跳到主要內容

Lucene(一):Lucene4.3.1、Tika、IKAnalyzer中文分詞

Lucene是一個很強大的搜尋引擎(Lucene wiki),重點是Open Source,還有很多子專案很好用喔,這次來介紹一下Tika這個子專案,它是一個文件擷取內容及文件metadata的函式庫,支援的檔案格式可以參考一下這裡,加上Lucene Core及中文IKAnalyzer就可以組合文件的中文全文檢索喔。

先下載
Lucene 4.3.1
Tika
IKAnalyzer



Lucene 4.3.1

  • 下載後解壓縮,分別複製以下的jar
    • lucene-queryparser-4.3.1.jar
    • lucene-queries-4.3.1.jar
    • lucene-core-4.3.1.jar
    • lucene-analyzers-common-4.3.1.jar
Tika 1.4
  • 請下載Source檔案,另外請在下載maven,因為Tika建議重新編譯一份出來,編譯方式參這裡,分別複製以下的jar
    • tika-xmp-1.4.jar
    • tika-server-1.4.jar
    • tika-parsers-1.4.jar
    • tika-core-1.4.jar
    • tika-bundle-1.4.jar
    • tika-app-1.4.jar
    • original-tika-app-1.4.jar
IKAnalyzer
  • 下載後解壓縮,複製以下的jar
    • IKAnalyzer2012FF_ul.jar

TvDocumentVo.java:儲存 Tika解析文件內容vo。
public class TvDocumentVo { 
   private Metadata metadata;
    private String content;
    public Metadata getMetadata() {
        return metadata;
    }
    public void setMetadata(Metadata metadata) {
        this.metadata = metadata;
    }
    public String getContent() {
        return content;
    }
    public void setContent(String content) {
        this.content = content;
    }
}
TvDocmentExtract.jar:使用Tika將解析出來的文件內容轉成List。P.S這裡需要調整當檔案數量及大小過大時。

public class TvDocmentExtract {
    public List parseAllFilesInDirectory(File directory) throws IOException, SAXException, TikaException {
        List result = new ArrayList();
        for (File file : directory.listFiles()) {
            if (file.isDirectory()) {
                parseAllFilesInDirectory(file);
            } else {
                Parser parser = new AutoDetectParser();
                Metadata metadata = new Metadata();
                ParseContext parseContext = new ParseContext();
                ContentHandler handler = new BodyContentHandler(100*100*1024);//若是檔案過大可以放大這裡的參數
                parser.parse(new FileInputStream(file), handler, metadata, parseContext);
                TvDocumentVo vo = new TvDocumentVo();
                metadata.set("filename",file.getAbsolutePath());//增加檔案絕對路徑屬性
                vo.setMetadata(metadata);
                vo.setContent(handler.toString());
                result.add(vo);
            }
        }
        return result;
    }
}
TvIndexManagement.java:建立索引

public class TvIndexManagement {
    
    public static void main(String[] arg) throws ParseException, IOException{
        TvIndexManagement tim = new TvIndexManagement();
        tim.createIndex("D:\\index", "D:\\document");//參數一為建立索引目錄,參數二為要進行文件擷取目錄
       
    }
    
    public void createIndex(String indexDir,String filesPath){
        this.ikanalyzerIndex(indexDir, filesPath);
    }
    public RAMDirectory readfsIndexToRam(String indexDir) throws IOException{
        Directory fsDir = FSDirectory.open(new File(indexDir));
         IOContext ioContext = new IOContext(Context.DEFAULT);
        return new RAMDirectory(fsDir, ioContext);
    }
    
    private void ikanalyzerIndex(String indexDir,String filesPath){
        Analyzer analyzer = new IKAnalyzer(true);//可參IKAnalyzer說明
        try {
            Directory index = FSDirectory.open(new File(indexDir));
            IOContext ioContext = new IOContext(Context.DEFAULT);
           // Directory index = new RAMDirectory(fsDir, ioContext);
            IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_43,analyzer);
            IndexWriter w = new IndexWriter(index, config);
            config.setMaxBufferedDocs(1000);//純粹測試效能調教
            config.setRAMBufferSizeMB(40);//純粹測試效能調教
           TvDocmentExtract tde = new TvDocmentExtract();
            try {
                List lists=tde.parseAllFilesInDirectory(new File(filesPath));
                for(TvDocumentVo vo :lists){
                    this.addDocument(w,vo.getMetadata().get("filename"),vo.getContent());
                }
                w.close();
            } catch (SAXException ex) {
                Logger.getLogger(TvIndexManagement.class.getName()).log(Level.SEVERE, null, ex);
            } catch (TikaException ex) {
                Logger.getLogger(TvIndexManagement.class.getName()).log(Level.SEVERE, null, ex);
            }            
        } catch (IOException ex) {
            Logger.getLogger(TvIndexManagement.class.getName()).log(Level.SEVERE, null, ex);
        }      
    }
    private void addDocument(IndexWriter writer,String filename,String content) throws IOException{
        Document doc = new Document();
        //System.out.println(filename);
        doc.add(new TextField("filename", filename, Field.Store.YES));
         doc.add(new TextField("content", content, Field.Store.YES));
         writer.addDocument(doc);
    }    
}
全文檢索範例程式碼

  String querystr = "合法";
        Directory index = FSDirectory.open(new File("D:\\index"));
        Analyzer analyzer = new IKAnalyzer(true);
        QueryParser qp = new QueryParser(Version.LUCENE_43, "content", analyzer);
        qp.setDefaultOperator(QueryParser.Operator.AND);
        Query q = qp.parse(querystr);
        int hitsPerPage = 10;
        IndexReader reader = DirectoryReader.open(index);
        IndexSearcher searcher = new IndexSearcher(reader);
        TopScoreDocCollector collector = TopScoreDocCollector.create(hitsPerPage, true);
        searcher.search(q, collector);
        ScoreDoc[] hits = collector.topDocs().scoreDocs;
        collector.getTotalHits();
           System.out.println("Found " + hits.length + " hits ==>" + collector.getTotalHits());
        for (int i = 0; i < hits.length; ++i) {
            int docId = hits[i].doc;
            Document d = searcher.doc(docId);
            System.out.println((i + 1) + ". " + d.get("filename"));
        }
        reader.close();
目前正在試試看,不使用Hadoop方式加快建立索引時間,基本上會用Queue方式進行,下次再介紹囉。

留言

這個網誌中的熱門文章

使用Apache Http Server進行Proxy和LoadB alance

環境概述 OS:Linux Apache Http Server:2.2.21 安裝可以使用rpm或是抓source下來compile,建議前者 rpm –ivh apache-http-xxx.rpm 這裡請注意一下安裝的版本 http.conf 參數設定 Proxy < VirtualHost *:80>      ProxyPass targetPath fromPath | fromUrl < VirtualHost/>  範例如下 < VirtualHost *:80>      ProxyPass /app http://DomainName或IP:8888/app      ProxyPassReverse /app http://DomainName或IP:8888/app < VirtualHost/> 上述的參數設定為,將某主機的http通訊協定下的Web application(app),對應到本台Web Server的app下。這樣的Proxy架構的設定對企業內的Web應用程式相當有用處,若是遇到Web Application Server掛點只需要修改Proxy對應,不需要動到dns等等,是個滿便宜的Proxy架構設定喔。﹝不過要注意Web Application要注意redirectc和forward等的撰寫,盡量不要有絕對IP的出現﹞

IBM MQ Server To Server的簡易設定

IBM MQ 的STS建置方式,IBM Red Book已經說明的滿完整的,這裡稍微整理一下,步驟如下 在 MQ-A Server MQ QMGR(MQA) 上需要建立的物件定義如下: • 遠端佇列定義 PAYROLL.QUERY • 傳輸佇列定義 MQB(預設 = 遠端佇列管理程式名稱) • 程序定義 MQA.TO.MQB.PROCESS(對於 WebSphere MQ for AIX、HP-UX、Solaris 與 Windows,及 MQSeries for Compaq Tru64 UNIX 與 OS/2 Warp,並非必要) • 傳送端通道定義 MQA.TO.MQB • 接收端通道定義 MQB.TO.MQA • 本端佇列定義 MQ2 以下是必須建立在 MQ-B Server MQ QMGR(MQB) 中的物件定義: • 遠端佇列定義 PAYROLL.RESPONE • 傳輸佇列定義 MQA(預設值=遠端佇列管理程式名稱) • 程序定義 MQB.TO.MQA.PROCESS(對於 WebSphere MQ for AIX、HP-UX、Solaris 與 Windows,及 MQSeries for Compaq Tru64 UNIX 與 OS/2 Warp,並非必要) • 傳送端通道定義 MQB.TO.MQA • 接收端通道定義 MQA.TO.MQB • 本端佇列定義 MQ4 1.先啟動MQ-A Server上的QMGR(MQA),並使用Runmqsc進入。 2.在佇列管理程式 MQA 上執行下列指令。 遠端佇列定義 DEFINE QREMOTE(PAYROLL.QUERY) DESCR('MQA 的遠端佇列') REPLACE + PUT(ENABLED) XMITQ(MQB) RNAME(MQ4) RQMNAME(MQB) 註: 遠端佇列定義並非實體的佇列,但卻是引導訊息至傳輸佇列 (MQB) 的一種方式,以便能將訊息送至佇列管理程式 MQB。 傳輸佇列定義 DEFINE QLOCAL(MQB) DESCR('對 MQB 的傳輸佇列') REPLACE + USAGE(XMITQ) PUT(ENABLED) GET(ENABLED) TRIGGER TRIGTYPE(FIRST) + INITQ(SYSTEM.CHANN

IReport字型下拉選單中文亂碼

這個問題其實也不是很大啦,不過當你有很多的中文字型檔的時候可能就不知道要選哪一個,啟動IReport後,開啟報表後會發現左邊下拉選單中,最下面的字型清單中有出現方框,顯示不出該字型的名稱,這幾個字型應該是判斷新細明體,標楷體及細明體,如下圖 下載IReport的Source Code來檢查一下,it.businesslogic.ireport.gui.MainFrame發現這個JComboBox有特別設定Arial字型,當然只要是中文的都顯示不出來ㄚ,所以點掉這一行後重新編譯,嘿嘿就可以了。 jComboBoxFont.setFont(new java.awt.Font("Arial", 0, 11)); 我目前使用的版本為 IReport-3.0.0-src