Skip to content

TedYeh/user_system-goal-generator

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

76 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Construction of Message Deliver Service Dialog Systems: Schema Guided Dialogue Corpus Collection and Instruction-Guided Model Training (中文訊息傳遞服務對話系統之建構)

此專案包含兩個部份: Schema-Guided Dialogue語料建構 & Instruction-Guided對話系統建置

Directory Structure

├─goal_generation         #Schema-Guided Dialogue語料建構程式
│  ├─backup               #爬蟲備份資料
│  ├─data                 #存放資料庫及爬蟲程式的資料夾
│  │  ├─db                #資料庫,或服務(service),給Agent存取使用
│  │  ├─json              #資料庫的json版本
│  │  ├─csv               #資料庫的csv版本
|  |  └─build_db.py       #依據爬取的資料來建立服務
│  ├─matrix               #存放轉移矩陣
|  ├─schema               #存放定義好的綱要
│  └─need_labeled         #對話改寫系統
├─tod_system              #對話系統模組
│  ├─convlab
│  │  ├─base_models       #T5-base的TOD模組
│  │  │  └─t5
│  │  │      ├─dst
│  │  │      ├─nlg
│  │  │      ├─nlu
│  │  │      └─policy
│  │  ├─deploy            #對話系統(website)
│  │  │  ├─ctrl
│  │  │  ├─static
│  │  │  ├─templates
│  │  │  └─utils
│  └─data                 #訓練語料
│      └─unified_datasets #存放經過格式統一的語料
│          ├─messagesgd
|          │  ├─db
|          │  └─preprocess.py #進行資料統一化
│          └─messagewoz
└─transistion matrix     #存放轉移矩陣的圖片

Dialogue Outline Generation

Place schema.json in schema dir

cd goal_generation/
python goal_generator.py

Training TOD System

Data Preprocessing

當你蒐集完語料,需將語料分割成train/validation/test三個目錄,並壓縮成messagesgd.zip,移至messagesgd目錄

cd tod_system/data/unified_datasets/messagesgd  #需遵守需unified的語料格式
python preprocess.py

Train Model

以messagesgd語料作為範例,context_size為5
corpus_name=messagesgd
context_size=5

Train NLU

cd tod_system/convlab/base_models/t5/nlu/
bash run_nlu.sh messagesgd 5

Train DST

cd tod_system/convlab/base_models/t5/dst/
bash run_dst.sh messagesgd 5

Train Policy

cd tod_system/convlab/base_models/t5/policy/
bash run_policy.sh messagesgd 5

Train NLG

cd tod_system/convlab/base_models/t5/nlg/
bash run_nlg.sh messagesgd 5

Deploy Model

cd tod_system/convlab/
python ./deploy/run.py