Files	Description
process_wiki.py	Process the xml format wikipedia to text format
train_word2vec_model.py	Train the pt-br wikipedia word2vec model
WikipediaWord2Vec.ipynb	Sample notebook

docker-compose build

curl https://dumps.wikimedia.org/ptwiki/latest/ptwiki-latest-pages-articles.xml.bz2 --create-dirs -o data/ptwiki-latest-pages-articles.xml.bz2

docker-compose run jupyter python src/process_wiki.py data/ptwiki-latest-pages-articles.xml.bz2 data/wiki.pt-br.text

docker-compose run jupyter python src/train_word2vec_model.py data/wiki.pt-br.text data/wiki.pt-br.word2vec.model

docker-compose up -d

Access notebook: localhost:8888

Provide feedback

Saved searches