UFRJ-COPPE-PESC - Engenharia de Dados e Conhecimento COS738 - Busca e Recuperação da Informação Projeto: IMIR-VSM (In Memory Information Retrieval - Vector Space Model) Autor..: Rafael Nunes - [email protected] Data...: 2017/07/05
- O log foi implementado de maneira centralizada, com num único arquivo registrando o log de todos os módulos. O sistema de log exige que o módulo vsm.py seja importa em todo módulo que utilizar o sistema de log e cada módulo deve atualizar o objeto logger com seus dados antes de registrar informação no log.
- O modelo tf-idf é armazenado utilizando-se o tipo dictionary do Python. Valores nulos (zero) não são armazenados. Foi utilizada a função pickle para gravar e ler o modelo da memória para o disco e vice-versa.
- vsm.py - métodos diversos relativos ao VSM preparados para reuso.
- query.py - processador de consultas desenvolvido conforme documentação
- inverted.py - gerador de lista invertida conforme documentação e incluída a geração de um conjunto de documentos para geração futura da tf_idf.
- indexer.py - módulo responsável pela criação do modelo vetorial.
- searcher.py - buscador desenvolvido conforme especificação na documentação.
- LOG.CFG - informa o nome do arquivo de log a ser utilizado pelo sistema
- PC.CFG - configuração do módulo query.py
- GLI.CFG - configuração do módulo inverted.py
- INDEX.CFG - configuração do módulo indexer.py
- BUSCA.CFG - configuração do módulo searcher.py
- consultas.csv - criado pelo módulo query.py com base nas informações do arquivo PC.CFG
- corpora.csv - criado pelo módulo indexer.py contendo o conjunto de documentos importados dos .xml indicados no arquivo de configuração GLI.CFG
- esperados.csv - criado pelo módulo query.py com base nas informações do arquivo PC.CFG
- inverted_index.csv - índice invertido criado pelo módulo indexer.py conforme informações obtidas no arquivo INDEX.CFG
- resultados.csv - criado pelo módulo searcher.py com o resultados das buscas
- vsm.pickle - dump de memória com o modelo vetorial dos documentos
- imir_vsm.log - arquivo contendo o registro da execução de todos os módulos do sistema IMIR_VSM O carectere de separação dos campos nos arquivos .csv é sempre ';'
- IMIR-VSM.pdf - enunciado do exercício.