Implementación de Lucene Básico para TG - Univalle
La recuperación de información con lucene funciona, en este proyecto, con dos clases separadas Indexador y Searcher.
Con el Indexador
lo deseado es generar una librería de búsqueda de
la base de documentos existente. Ya que esto es una unidad con una única función sin retorno (o retorno void)
lo ideal es ejecutarlo para la tarea requerida por tanto se genera un ejecutable .jar el cual recibe dos
parametros indexPath
y docsPath
(en este orden).
indexPath
hace referencia al directorio donde se desean guardar las los archivos de indexación.docsPath
hace referencia al directorio donde están contenidos los documentos que se desean indexar y en un futuro buscar.
El indexador utiliza todas las dependencias que se encuentran en la carpeta LuceneJar.
Con el Searcher
se desea realizar una búsqueda sobre lo ya previamente indexado. Esta funcionalidad retorna
una colección ArrayList y consiste en un método para realizar la búsqueda por tanto se genera un ejecutable .jar
que recibe dos parametros busqueda
y indexPath
(en este orden).
busqueda
hace referencia a la cadena de texto que se desea buscar.indexPath
hace referencia al directorio donde se desean guardar las los archivos de indexación.
El Searcher utiliza las siguientes dependencias:
lucene-analyzers-common-4.9.0
lucene-core-4.9.0
lucene-highlighter-4.9.0
lucene-queryparser-4.9.0
El conversor a txt utiliza la habilidad de lectura de cualquier tipo de documento del proyecto Tika para extraer la información y copiarla sobre un archivo plano.
El conversor a txt es una única función sin retorno (o void) que recibe dos parámetros docsPath
y
docTextPath
.
docsPath
hace referencia al directorio donde están contenidos los documentos que se desean convertir a texto plano.docTextPath
hace referencia al directorio donde se desean guardar las los archivos convertidos a texto plano.
El ConvertisorTxt utiliza la dependencia:
tika-app-1.6