diff --git a/configs/kr_lp_pgnet.yml b/configs/kr_lp_pgnet.yml index 2417c15..ede7112 100644 --- a/configs/kr_lp_pgnet.yml +++ b/configs/kr_lp_pgnet.yml @@ -1,6 +1,6 @@ Global: use_gpu: True - epoch_num: 100 + epoch_num: 200 log_smooth_window: 20 print_batch_step: 10 save_model_dir: ./output/kr_lp_pgnet/ @@ -52,8 +52,8 @@ Optimizer: beta2: 0.999 lr: name: Cosine - learning_rate: 0.001 - warmup_epoch: 5 + learning_rate: 0.0001 + warmup_epoch: 15 regularizer: name: 'L2' factor: 0.0001 diff --git a/data_gen/generate_synthetic.py b/data_gen/generate_synthetic.py index a42aef6..aca7028 100644 --- a/data_gen/generate_synthetic.py +++ b/data_gen/generate_synthetic.py @@ -26,14 +26,15 @@ import numpy as np # 한영 자판 매핑 (자음·모음 → 영문 두 글자 코드 → 한글 글자) -# qjadud1994 자산의 char1/char1_g/char1_y 폴더 파일명 규칙과 일치 (37자). +# qjadud1994 자산의 char1/char1_g/char1_y 폴터 파일명 규칙과 일치 (40자). +# 추가: '하'(gk), '호'(gh), '배'(qo) — dict 누락 글자 보충. HANGUL_CHAR_MAP = { 'ah': '모', 'aj': '머', 'ak': '마', 'an': '무', 'dh': '오', 'dj': '어', 'dk': '아', 'dn': '우', 'eh': '도', 'ej': '더', 'ek': '다', 'en': '두', 'fh': '로', 'fj': '러', 'fk': '라', 'fn': '루', - 'gj': '허', - 'qh': '보', 'qj': '버', 'qk': '바', 'qn': '부', + 'gh': '호', 'gj': '허', 'gk': '하', + 'qh': '보', 'qj': '버', 'qk': '바', 'qn': '부', 'qo': '배', 'rh': '고', 'rj': '거', 'rk': '가', 'rn': '구', 'sh': '노', 'sj': '너', 'sk': '나', 'sn': '누', 'th': '소', 'tj': '서', 'tk': '사', 'tn': '수',