-
Notifications
You must be signed in to change notification settings - Fork 23
[PAPERS REVIEWED]
angrypark edited this page Mar 12, 2018
·
48 revisions
Title | Review | Paper | Reviewer | Date |
---|---|---|---|---|
Convolutional neural networks for sentence classification (2014) | review | paper | 조현호 | 18/01/11 |
CNN을 활용하여, 문장의 라벨을 분류하는 모델이다. 기존에 공개되어 있는 word2vec을 사용하여도 좋은 결과를 보여주었으며, 해당 모델을 통해 word2vec을 update 시키는 경우, 그 효과가 극대화되었다. | ||||
A Sensitivity Analysis of (and Practitioners' Guide to) Convolutional Neural Networks for Sentence Classification (2015) | review | paper | 김혜림 | 18/01/11 |
CNN 을 통한 Sensitivity Analysis 실험을 진행한 논문이다. 이 논문에서는 practical하게 어떤 parameter가 학습에 최적화되어 있는지를 알려주고 있다 | ||||
Deep Residual Learning for Image Recognition (2015) | review | paper | 김지중 | 18/01/11 |
ILSVRC 2015에서 우승한 모델인 ResNet과 관련된 논문입니다. Identity mapping을 통한 Residual한 학습 방식을 제안한다. | ||||
Residual Networks Behave like ensembles of Relatively Shallow Networks (2016) | review | paper | 조용래 | 18/01/11 |
1. Residual networks는 여러가지 길이의 path의 모임이다. -> main path와 skip connection 2. 그 path들은 서로 별로 연관성을 보이지 않는다, dependent하지 않다. -> emsenble이다. 3. 긴 path들은 거의 영향력이 없고 input에서 output까지 짧은 path들이 대부분의 영향력을 가진다. |
||||
Identity Mappings in Deep Residual Networks (2016) | review | paper | 강병규 | 18/01/18 |
ResNet의 구조에 대한 다양한 실험을 수행하고 기존 구조보다 조금 더 나은 성능을 보이는 새로운 구조 제안 | ||||
Character level Convolutional Networks for Text Classification (2015) | review | paper | 고동영 | 18/01/18 |
이 논문은 Character-level convolutional networks을 다양한 데이터셋에 시도해보았고 성능을 비교해보았다. 비교 대상은 전통적인 모델인 bag of words, n-grams, 그들의 TF-IDF버젼, 그리고 딥러닝 모델인 RNN, word-based CNN이었고, 비교 결과상당한 성능을 보였다. | ||||
Very Deep Convolutional Networks for Text Classification (2016) | review | paper | 김현우 | 18/01/18 |
resNet 이전에는 text에 CNN을 적용하면, 최대 6개의 layer만 쌓을 수 있었다. 하지만, resNet을 적용하면 29개의 layer를 쌓을 수 있었으며, 이 성능은 다른 NLP기법보다 좋았다. | ||||
Text Understanding from Scratch (2015) | review | paper | 김우정 | 18/01/18 |
사전학습된 임베딩 없이, 문자로부터 직접 학습하는 CNN 모델을 만들어 보고자 하였다. 사전 학습된 임베딩을 이용한것, 이용하지 않은것에 대해 5개의 task를 수행하였다. | ||||
Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks (2015) | review | paper | 노혜미 | 18/01/18 |
tree-lstm의 두 가지 버전인 Dependency Tree-LSTM과 Constituency Tree-LSTM을 이용해 감성 분석과 문장간 유사도를 구하는 task를 수행했다. 감성 분석은 5가지 감성을 분류하는 것과 긍부정을 분류하는 게 있었는데 5가지 감성을 분류하는 것은 Constituency Tree-LSTM이 가장 뛰어났고 긍부정 분류는 Tree-LSTM말고 다른 모델이 뛰어났다. 문장간 유사도를 구하는 것은 Dependency Tree-LSTM이 가장 좋은 성능을 냈다. | ||||
A Convolutional Neural Network for Modeling Sentences (2014) | review | paper | 이상헌 | 18/01/18 |
We describe a convolutional architecture dubbed the Dynamic Convolutional Neural Network (DCNN) that we adopt for the semantic modelling of sentences | ||||
Character-Aware-Neural-Language-Model(2016) | review | paper | 김현우 | 18/01/25 |
LSTM, char-CNN, highway Network을 연결하여 char-CNN모델을 만들었다. 따라서 parameter를 60% 줄일 수 있었으며, 특히 형태소가 많은 언어에서 다른 LSTM 기반 모델보다 성능이 좋았다. | ||||
End to end Sequence Labeling via Bi directional LSTM CNNs CRF (2016) | review | paper | 노혜미 | 18/01/25 |
어떤 전처리도 필요하지 않은 end-to-end sequence labeling을 했다. bi-directional LSTM, CNN, CRF을 한꺼번에 사용했다. CNN을 이용해 char representaion을 만들어내고, word-embeddings와 concatenate한 다음 BLSTM에 넣었다. 그리고 마지막 층에서 CRF를 이용해 label을 예측했다. | ||||
Character-Word LSTM Language Models (2017) | review | paper | 고동영 | 18/01/25 |
Character-Word를 둘다 사용하는 LSTM으로써 word based의 문제를 해결하고, 파라미터 수를 줄였다. Character 단위의 정보는 단어의 비슷함을 알려주기도 하고 unknown word나 infrequent word 대해서도 적용할 수 있어 모델의 성능을 높여준다. | ||||
Training RNNs as fast as CNN | review | paper | 김지중 | 18/01/25 |
SRU: recurrence에 대한 sequential dependency를 줄여 보다 빠른 속도의 RNN계열 모델을 제시한다. | ||||
ByteNet : Neural Machine Translation in Linear Time (2016) | review | paper | 조용래 | 18/01/25 |
ByteNet은 Encoder 위에 Decoder를 쌓고 Dynamic unfolding을 이용해 서로 다른 길이의 인풋과 아웃풋 시퀀스 길이를 고려하는 새로운 모델 아키텍쳐이다. 이로써 모델 실행 시간이 linear time으로 줄어 들고, 인풋 길이에 따라 source representation이 길어지는 resolution preserving 특징을 지니게 되었다. Machine Translation과 Language Modeling 문제에서 state-of-the-art 성능을 내었다. | ||||
A Hierarchical Recurrent Encoder Decoder for Generative Context Aware Query Suggestion(2015) | review | paper | 노혜미 | 18/02/01 |
임의의 길이를 갖는 이전 쿼리 sequence를 고려할 수 있는 확률적 suggestion 모델이다. 즉, 맥락을 알아내 generation하는 모델이다. 각각의 encoder와 decoder에 GRU를 이용했고 LTR 알고리즘을 사용했다. HRED를 사용하니 빈번하지 않은 context에 대해서도 잘 예측할 수 있었다. | ||||
Show and Tell: A Neural Image Caption Generator | review | paper | 고동영 | 18/02/01 |
CNN을 사용한 Encoding과 RNN을 사용하여 image를 보고 sentence generating을 하는 neural net을 만들었다. 학습은 likelihood를 maximize하는 방향으로 학습하였다. 우리의 NIC는 양적평가(BLEU등), 질적평가에서 모두 뛰어났다. | ||||
Depthwise Separable Convolutions for Neural Machine Translation | review | paper | 조현호 | 18/02/01 |
기존의 RNN에 Attention을 결합한 모델은 Neural Machine Translation에서 좋은 성과를 보였으나, 너무 느렸으며 앞뒤로 짧은 시간만 볼 수 있었다. 이를 해결하기 위해 CNN 모델들이 구상되었으나 너무 많은 parameter가 필요하다는 단점이 있었다. 이 논문에서는 depthwise seperable convolution layers를 이용하여 parameter 수를 줄이며, 한 단계 더 나아가 super-seperable convolution 이라는 모델을 제안하여, parameter 숫자를 획기적으로 줄였다. | ||||
A Diversity-Promoting Objective Function for Neural Conversation Models | review | paper | 이상헌 | 18/02/01 |
We suggest that the traditional objective function, i.e., the likelihood of output (response) given input (message) is unsuited to response generation tasks. Instead we propose using **Maximum Mutual Information (MMI)** as the objective function in neural models. | ||||
A Neural Conversational Model | review | paper | 김우정 | 18/02/01 |
seq2seq 모델로 end-to-end 챗봇을 만드는 것을 목표로 한다. 보통의 챗봇이 domain-specific하고 많은 전처리가 필요했던 것을 개선하고자 했다. 이 모델은 복잡한 과정 없이도 문맥을 이해하고 일반적인 수준의 추론을 할 수 있다. 또한 이미 존재하는 질문에 대한 답을 찾는 것이 아니라 , training set에 존재하지 않는 답을 찾기 때문에 일반화가 가능하다는 장점이 있다. 규칙 기반 챗봇에 비해 더 나은 성능을 보인다 | ||||
A Hierarchical Latent Variable Encoder Decoder Model for Generating Dialogues (2016) | review | paper | 노혜미 | 18/02/08 |
RNN의 hidden state는 해당 문장내에서의 token의 정보를 요약하는 데 집중하기 때문에, 오래 전의 문장들에 대한 정보는 잘 저장하지 못했다. 하지만 VHRED의 경우, 현재 time step에서의 context RNN의 output과 다음 sub-sequence에 대한 encoder RNN의 output을 input으로 받는 latent variable z를 이용했고, token에 대한 요약을 넘어 더 높은 수준의 정보를 저장할 수 있게 됐다. | ||||
Neural Machine Translation by Jointly Learning to Align and Translate (2014) | review | paper | 조용래 | 18/02/08 |
Alignment라는 이름으로 NLP에서 attention 개념을 처음으로 도입했다. 기존의 RNN encoder-decoder 모델이 fixed-length 벡터에 source sentence의 모든 정보를 담아야 했던 한계에서 벗어났다. 문장 길이가 길 때 번역 성능을 크게 향상시켰다. | ||||
Neural Learned in Translation: Contextualized Word Vectors(2017) | review | paper | 김현우 | 18/02/08 |
번역모델에서 사용했던 Encoder를 다른 모델의 input에 concat해주면, context를 제공하는 역할을 하기때문에 성능이 더 좋아진다. 그 이유는 번역모델의 경우 input sequence의 정보를 잃지 않고 그대로 다시 output으로 내보내기 때문이다. | ||||
A Persona Based Neural Conversation Model(2016) | review | paper | 김우정 | 18/02/08 |
기존의 neural converstaion model에서는 대답이 일관적이지 않은 문제가 발생한다. 질문자와 응답자의 identity를 반영함으로써 실제 대화 처럼 한 사람이 일관적인 대답을 뱉는 모델을 만드는 것을 목표로 한다 | ||||
Effective Approaches to Attention based Neural Machine Translation (2015) | review | paper | 조현호 | 18/01/11 |
Attention[3] Editing Bidirectional Attention Flow for Machine Comprehension(2016) | review | paper | 김현우 | 18/02/22 |
query를 가장 잘 나타낼 수 있는 context 단어를 골라낼 수 있다. 기존의 attention모델과는 다르게 계속 attention을 계산해준다. | ||||
Attend to You: Personalized Image Captioning with Context Sequence Memory Networks(2017) | review | paper | 노혜미 | 18/03/06 |
다양한 타입의 context 정보에 대한 저장소로 memory를 이용, 이전에 생성된 단어들을 memory에 추가, CNN을 이용해는 memory 정보를 추출하는 과정을 통해 개인화된 captioning을 할 수 있었다. | ||||
MILABOT : A Deep Reinforcement Learning Chatbot(2017) | review | paper | 조용래 | 18/03/11 |
2017 Amazon Alexa Prize competition에 참가한 팀. 22개의 response model로 응답을 만든 뒤, response selection policy로 가장 적절한 응답을 선택했다. 응답 선택 모델은 AMT에서 수집한 데이터로 학습한 MLP, REINFORCE을 변형한 Off-policy REINFORCE, Abstract Discourse MDP를 이용한 Q-learning 등을 실험했다. | ||||
Key-Value-Memory-Networks-for-Directly-Reading-Documents(2017) | review | paper | 김현우 | 18/03/11 |
memory network에서 memory부분을 key-value pair로 설정하여 question이 주어졌을 때, 관련이 있는 memory만 불러온 후 이것을 가중합계하는 방식이다. 기존 memory network는 모든 메모리를 사용하는 반면에, 이 네트워크는 관련있는 메모리만 사용한다. | ||||
Learning End-to-End Goal-Oriented Dialog | review | paper | 박성남 | 18/03/11 |
목표가 뚜렷한 분야에서의 end-to-end dialog 모델을 평가하기 위한 실험 환경을 제시한다. 기존의 다른 모델들과 비교할 수 있는 baseline과 open dataset을 통해 새로운 모델에 대한 성능을 객관적으로 평가할 수 있다. |