LinguaNatural-Authorship-mp2

LÍNGUA NATURAL 2016/2017 Mini-Projecto No 2 — MP2

Data limite entrega: até às 12:00 (meio dia) do dia 7/Nov

###OBJECTIVOS Aprender a construir e utilizar modelos de língua estatísticos no processamento de língua natural.

###ENUNCIADO Pretende-se identificar o autor de um texto usando o conhecimento previamente extraído de um corpus de textos de vários escritores.

Tendo em conta a coleção de textos referentes a 7 autores portugueses (disponibilizada em "treino.zip"):

Normalize todos os textos para que a pontuação tenha sempre um espaço à direita e à esquerda (esta é a única restrição que tem de respeitar);
Calcule os unigramas e bigramas, sem e com alisamento (qualquer estratégia de alisamento é aceite) para os textos de cada um dos autores.

#####ATENÇÃO: Pode usar qualquer ferramenta para calcular os ficheiros de unigramas e bigramas (por exemplo, ngram-count, srilm toolkit, ...); Para facilitar a tarefa de avaliação, os ficheiros calculados devem apresentar uma de duas sintaxes:
- contagem por linha (ver os ficheiros “unigramasDEMO.txt” e “bigramasDEMO.txt” que contêm o formato desejado);
- ARPA format (ver secção 4.8 do [Jurafsky & Martin, 2009], ver o ficheiro “gramasDEMO.arpa” que contém o formato desejado).

Tente identificar o autor dos textos da coleção "teste.zip", usando os modelos de língua calculados anteriormente.

Faça três experiências, podendo variar:
- a normalização (maiúsculas/minúsculas, palavras funcionais, ...);
- a dimensão dos N-gramas (unigramas/bigramas);
- os N-gramas a usar (todos, os mais frequentes, ...);
- ... Nota: A totalidade das experiências deve poder ser reproduzida através da execução de um shell script "run.sh".
Faça um relatório (não pode exceder 3 páginas A4) com a análise crítica das experiências/resultados obtidos.

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
tmptreino		tmptreino
.gitignore		.gitignore
MP2.pdf		MP2.pdf
README.md		README.md
Relatório-MP2-ALAMEDA29.txt		Relatório-MP2-ALAMEDA29.txt
authorship.py		authorship.py
determineAuthor.py		determineAuthor.py
normalize.py		normalize.py
normalizermstopwords.py		normalizermstopwords.py
run.sh		run.sh

Provide feedback