pdf : https://arxiv.org/pdf/2112.03154.pdf
cite : Xu, H., Lu, S., Sun, Z., Ma, C., & Guo, C. (2021).VAE based text style transfer with pivot words enhancement learning. arXiv preprint arXiv:2112.03154.
Text Style Transfer(TST)는 하나의 텍스트에 대해서 content는 유지하면서 style정보를 다른 style로 교체하는 것을 목표로 하는 language generation 영역의 task입니다.
- style : 글의 분위기, 어투, 작풍, 양식 등등
- content : 글의 내용, 주제 등등
이는 생성된 문장에서 표현된 style을 조절하는 것을 목표로 한다고 할 수도 있습니다.
여기서 style은 감정(emotion), politeness, 형식(formality), 부호 전환(code-switching) 등이 있습니다.
(위에 언급한 네가지 이외의 다양한 style이 존재함)
본문에서는 sentiment transfer, formality transfer, code-switching transfer 세 가지 task로 실험을 진행합니다.

- sentiment transfer
- sentiment analysis에 사용되는 yelp 같은 dataset으로 진행
- 긍정/부정의 코멘트를 같은 주제지만 반대 감정이 담긴 새로운 코멘트로 전환
negative $\leftrightarrow$ positive
- formality transfer
- informal oral expression $\leftrightarrow$ formal written expression
- code-switching transfer
- code-switching : 화자가 하나의 발화에서 두개 이상의 언어를 번갈아 사용하는 언어 현상
- code-switching transfer : single langauge sentence $\leftrightarrow$ code-switch sentence
- code-switching transfer는 training data가 별로 없으며 cross-lingual까지 고려해야 하는 어려운 task임
TST를 supervised learning하는데에 필요한 고퀄리티의 parallel data를 구하는 것은 매우 어려운 일이기 때문에 unsupervised learning을 통해서 style과 content의 latent representation을 학습하는 것이 TST의 트렌드가 되어왔습니다.
이전까지의 unsupervised TST learning에 대한 연구들은 크게 Disentanglement와 Style Attribute Rewriting으로 분류됩니다.
우선 Disentanglement approach의 경우 content에서 style feature를 제거하고 새로운 style정보를 content feature와 합치는 방식입니다. 그러나 이런 방식은 model과 data의 inductive bias 없이 disentangled representation에 대한 unsupervised learning은 불가능하다는 것이 이론적으로 증명되어서 요즘에는 많이 선호되지 않는다고 합니다.
(내용 보완 필요)
style attribute rewriting은 모델이 문장에서 style과 독립적인 부분은 reconstruction에 집중하게 하면서 style embedding을 이용하여 style과 관련된 attribute를 새로 작성하게 하는 방식입니다.
이 주제와 관련되어서는 transformer에 기반된 모델인 style transformer가 2019년에 제안되었지만 이는 생성된 문장의 style 강도를 잘 조절할 수 있는 모델은 아니였습니다.
추가적으로 TST와 관련되어 자주 묶이는 주제로는 Variational autoencoder(VAE)가 있습니다.
VAE에 의해 학습된 latent space가 deterministic autoencoder(DAE) 보다 더 스무스하고 연속적이라는 것이 이전 연구에서 실험적으로 보여지기도 했고, latent feature를 건들이기 수월하여 그런것 같습니다.
(내용 보완 필요)
본 논문에서는 VAE based Text Style Transfer with pivOt Words Enhancement leaRning (VT-STOWER)를 제안합니다.
VT-STOWER는 style feature와 content featured의 분포를 같이 학습하기 위해서 style embedding과 VAE를 활용합니다. 추가적으로 pivot words enhancement learning을 진행하여 TST task에 대한 성능을 더 높이고자 했습니다.
contribution & advantage
- VT-STOWER는 VAE의 continuous style expression distribution을 스스로 학습할 수 있다는 장점과 style embedding들이 서로 구별될 수 있다는 장점을 취합니다
- 모델이 target style embedding들에 다양한 weight를 부여할 수 있어서 style의 강도를 조절할 수 있는 유연성을 지녀서 이전 연구에서는 거의 연구되지 않았던 TST task에 잘 적용될 수 있습니다.
- pivot words masking enhancement mechanism 제안 [pivot word(중심어) : 글의 스타일을 결정할 수 있는 단어]
이는 VT-STOWER가 pivot word들에 더 집중할 수 있으며 어떤 단어들이 transfer 될 가능성이 높은지 인지하게 인지할 수 있게 합니다. 그렇게 해서 transfer accuracy는 높이면서 주제는 유지되는 글을 만들어 내도록 합니다. - 저자들은 본 연구가 code-switching을 style transfer의 관점으로 고려하여 연구를 진행하고 적용시킨 첫 번째 연구라고 주장합니다
즉, 제한된 training data를 고려했을 때 code-switching이라는 주제에 대해 번역 이상의 어떤 잠재적인 솔루션을 제공했다고 할 수 있습니다. - VT-STOWER가 benchmark dataset들에 대한 SOTA method들에 비해 더 나은 결과를 보여줬고, 활용도가 많다는 것 또한 보여줍니다.
Method
VT-STOWER의 학습은 두 단계로 구성됩니다.
- Stage I
입력 문장이 외부 스타일 임베딩과 함께 재구성되는 VAE reconstruction task입니다.
이때 content 분포의 latent space는 VAE에 의해 학습되고, 원본 및 타겟 스타일 매핑은 스타일 임베딩에 학습되고 저장됩니다.
이때 학습된 VAE와 스타일 임베딩은 두 번째 단계에서도 활용됩니다. - Stage II
모델이 pivot word에 집중하면서 다른 단어는 유지시키도록 하기 위해서, 두번째 단계에서는 pivot word masking으로 VAE fine-tuning을 진행합니다.
pivot word를 제외한 다른 단어를 유지시키는 이유는 글의 유창성과 의미적 정보를 보존시키기 위함입니다.
마스킹의 경우 스타일 분류 작업에서 학습된 특정 스타일에 대한 피벗 단어의 확률분포를 기반으로 진행됩니다. - inference
이 단계에서 모델은 샘플링된 latent vector에 타겟 스타일을 적용시키기 위해 학습된 외부 스타일 임베딩을 이용합니다.
그리고 적용된 벡터는 decoder의 인풋으로 들어가서 타겟 스타일 텍스트를 생성이 진행됩니다.
Stage I : VAE & Style Embeddings

style type이 알려진 문장 $x$에 대해서, 우선 Pre-Trained Language Model(PTLM)으로 contextualized vector $x'$를 만들어냅니다.
이때 $x'$은 VAE 모델의 인풋으로 들어가게 되고 본 연구에서 활용된 PTLM은 RoBERTa와 XLM-R입니다.
위에서도 언급했듯이 활용되는 PTLM은 downstream model에 대한 성능을 향상시킬 수 있다는 선행 연구가 존재합니다.
(Deep contextualized word representation)
VAE
이후 contextualized vector $x'$를 transformer encoder에 넣어서 latent distribution $\mathcal {N}(\mu,\sum)$를 만들기 위해 mean vector $u \in \mathbb {R}^d$ 와 variance vector $\sum \in \mathbb {R}^d$를 인코딩합니다.
이때 $d$는 latent space의 차원입니다.
이때 위 그림에서는 sampler라고 표현되어져 있지만 reparameterization 과정을 말하는 것 같습니다.
실제로 VAE에서는 latent distribution에서 직접 샘플링 하기보단 다음과 같이 noise를 샘플링하고 reparameterization해서 디코더에 넘깁니다.
$z = \epsilon * \sigma + \mu$, $\epsilon$~$\mathcal {N}(0,\mathrm {I})$
이렇게 하는 이유는 back propagation을 가능하게 하기 위함이라고 알고 있습니다.
z를 분포로부터 직접 샘플링하는 행위는, 어떤 의미에서 디코더와 인코더의 dependent한 관계를 망치게 됩니다.
샘플링 자체는 미분이 안되는 연산이며 분포로부터 샘플링을 직접 하게 되면 stochastic을 모델 자체에 부여하게 되면서 back propagation 과정을 불가능하게 만들게 되는데,
이를 방지하고자 noise를 샘플링하고 latent distribution의 정보를 입히면서 모델의 deterministic를 유지시켜줍니다.
다시 말해서, loss가 encoder parameter에 대해 미분 가능해집니다.
이후 벡터 $z$가 latent distribution으로부터 샘플링되고, 원본 텍스트를 복원하기 위해서 decoder의 인풋으로 들어가게 됩니다.
이때 latent distribution의 사전 분포는 standard normal distribution $\mathcal {N}(0,\mathrm {I})$로 가정됩니다.
VAE의 일반적인 loss function은 다음과 같이 정의됩니다.:
$\mathcal {L}_{vae} = -\mathbb {E}_{q(z|x)}[\log {p(x|z)}] + \beta \cdot \mathbb {KL}(q(z|x) || p(z))... (1)$
여기서 첫째항은 원본 텍스트 $x$가 복원될 likelhood이고 두 번째 항은 latent distribution $q(z|x)$와 사전 분포 $p(z)$간의 KL divergence입니다.
위에서 언급했듯이 $p(z)$는 standard normal distribution $\mathcal {N}(0,\mathrm {I})$이며, $q(z|x)$는 인코더 아웃풋의 분포 $\mathcal {N}(\mu,\sum)$입니다.
학습과정에서 KL divergence항을 최소화하는 것은 $q(z|x)$를 사전 분포에 근사 시키는 방향의 학습이 됩니다.
여기서 사전분포에 $q(z|x)$를 근사시키는 학습을 통해 true posterior distribution $p(z|x)$를 추정할 수 있습니다.
Style embedding
이전까지 disentanglement방식의 방법론들은 latent feature에서 style정보를 분리하는 방식을 채택했지만
본 연구에서는 외부 스타일 임베딩을 학습하는 방향으로 진행합니다.
외부 스타일 임베딩을 이용하게 되면, latent feature로부터 스타일 정보를 분리하는 것에서 오는 벡터 표현의 lower capacity문제를 피할 수 있다는 장점이 있습니다.
이렇게 되면 스타일 간의 공간을 구별할 수 있게 됩니다.
본문에서는 스타일 임베딩의 집합을 다음과 같이 정의합니다. :
$S = \{s_1, s_2,..., s_k\},$ $s_i \in \mathbb {R}^d$ (논문에는 $\mathbb {R}^{k \times d}$라고 되어있는데 오타 같습니다.)
처음에 style embedding network는 random initialization 되고 학습과정에서 style embedding과 latent feature 간의 유사도를 최대화하는 방향으로 업데이트됩니다.
(논문에서는 minimize라고 되어있는데 뒤에 나올 loss가 음수로 정의되어 있어서 그런 것 같습니다.)
우선 style loss로서 sampled latent feature $z$와 style embedding $s_i$간의 코사인 유사도를 계산합니다.

여기서 style embedding은 동일한 스타일에 속하는 문장에서 추출된 latent feature와 높은 관련이 있어야 한다고 가정됩니다.
예를 들어서 positive style embedding과 positive 문장의 latent feature 간의 거리 측도는 1에 가까워야 하고, negative 문장의 경우는 거리 측도가 0에 가까워야 한다는 것입니다.
그래서 style loss는 다음과 같이 정의됩니다.:
$\mathcal {L}_{style} = -\sum_{i=1}^{k} d_i \log{(\sigma(cos(s_i, sg(z))))}... (2)$
위 수식은 우선 단일 스타일 문장에 대한 loss function입니다. 여기서 $d_i$는 distance에 대한 ground truth(정답 값)을 의미합니다.
더 구체적으로는, 만약 $i$번째 스타일이 입력 문장의 스타일이라면, $d_i = 1$이고 그렇지 않은 경우는 $d_i = 0$입니다.
$\sigma$ 함수의 경우, 코사인 유사도 값의 범위를 0 이상 1 이하로 만들어 줍니다.
$sg$ 함수는 stop gradient함수를 의미하는데, style loss를 통한 parameter학습에서 latent feature은 스타일 임베딩과 독립된 부분으로서 업데이트하지 않겠다는 의미입니다.
더 나아가서 (1) 번식에 적힌 VAE loss를 style embedding을 추가하여 약간의 수정을 하게 됩니다.
$\mathcal {L}_{vae} = -\mathbb {E}_{q(z|x)}[\log {p(x|z+sg(s_x)}] + \beta \cdot \mathbb {KL}(q(z|x) || p(z))... (3)$
위 식에서 $z+sg(s_x)$은 디코더에게 생성해야 될 문장의 style정보를 알려줬다는 의미로 해석할 수 있습니다.
여기서 $s_x$는 문장 $x$에 대한 스타일 임베딩이고, style loss와 비슷하게 VAE학습에서 스타일 임베딩은 독립된 부분으로 보기 위해 스타일 임베딩에 대해서는 stop gradient 처리를 해줍니다.
최종적으로 training stage I에서의 loss는 다음과 같이 정의됩니다.
$\mathcal {L}_{total}=\lambda_{vae}\mathcal {L}_{vae}+\lambda_{style}\mathcal {L}_{style}$
Training Stage II : Pivot Words Masking
Stage I에서는 VAE와 style embedding을 학습했습니다.
style과 관련이 깊은 단어는 TST에서 중요한 역할을 하기 때문에, Stage II에서는 디코더가 그런 pivot word들에 집중하게 하기 위해서 pivot word masking을 진행합니다.
예를 들어서 sentiment transfer의 경우 'I am disappointed with the restaurant'라는 문장의 pivot word는 부정적인 감정과 가장 관련이 깊은 'disappointed'라고 할 수 있습니다.
그러나 'I, was'같은 핵심어(anchor word)들은 감정과 관련이 있지는 않지만 문장의 의미에는 영향을 끼칠 수 있기 때문에 style transfer에서는 변화가 있으면 안 됩니다.
그러므로 이번 단계에서는 모델이 핵심어들은 유지하되 중심어(pivot word)는 transfer 하는 능력을 강화시키고자 합니다.
학습 단계가 2개로 나뉜 이유는 스타일 임베딩이 중심어를 볼 수 없어서 스타일 정보가 학습되기 어렵고, stage I에서 학습된 스타일 임베딩이 VAE를 fine-tuning하는데에 있어서 마스킹된 중심어를 복원하는 데에 도움을 줄 수 있기 때문입니다.
그래서 본 연구에서는 특정 스타일에 대한 중심어가 될만한 단어들인지 학습하고 확률에 기반하여 마스킹하는 방식을 채택합니다.
이를 위해서 단어가 중심어일 확률을 나타내려고 importance score distribution을 이용합니다.
(Transforming Delete, Retrieve, Generate Approach for Controlled Text Style Transfer)
importance score distribution은 스타일 분류기의 대한 attention weight로 구해집니다.
구체적으로는, 첫 번째 토큰의 attention stack 위에 소프트 맥스를 추가한 PTLM기반의 분류기를 학습합니다.
여기서 첫 번째 토큰은 문장의 시작을 표현하는 특수 토큰('<s>')이고, 입력 문장의 스타일을 식별하는 데에 있어서 다른 토큰들의 중요도에 해당하는 attention weight들을 수집합니다.
입력 문장 $x$에 있는 토큰 $w$의 importance score는 다음과 같이 정의합니다.

제가 보기엔 논문에서 제시한 뭔가 수식이 이상하긴 한데, 어떤 의미인지는 대충 알겠으니 무시하고 넘어가겠습니다.
위 식에서 $L$은 헤드의 수이고, $Q, K$는 각각 쿼리와 키입니다.
그리고 아래 첨자 $<w, i>$는 i번째 헤드에서의 토큰 $w$의 벡터를 표현합니다.
$\gamma$는 스코어 분포의 모양을 조절하는 hyperparameter입니다.
중심어에 관한 확률 분포를 얻으면, 이를 기반으로 입력 문장에서 단어를 마스킹합니다.
구체적으로, 각 토큰 $x_i$에는 임의의 수 $p_i$가 부여됩니다. (이때 $p_i$~uniform(0,1))
만약 $p_i$가 score $\alpha(x_i)$보다 작다면 ($p_i < \alpha(x_i)$), 해당 토큰 $x_i$는 특수 토큰 <mask>로 교체합니다.
즉, importance score가 더 높은 단어일수록 마스킹될 확률이 높아지게 된다고 합니다.
위와 같은 방식은, 보통의 경우 content는 보존하면서 style attribute를 제거한 문장이 만들어지게 될 것입니다.
이후에 VAE모델은 마스킹된 문장을 원본 문장으로 복원하도록 fine-tuning을 진행하게 됩니다.
이때 latent feature에는 원본 문장에 대응되는 스타일 임베딩이 추가가 되는데, loss function은 다음과 같이 정의됩니다.
$\mathcal {L}_{vae} = -\mathbb {E}_{q(z|x)}[ \log { p(x|z+sg(s_x'))}] + \beta \cdot \mathbb {KL}(q(z|x) || p(z))$
여기서 $s_x'$은 입력 $x$와 같은 스타일을 갖는 스타일 임베딩입니다.
주의해야 할 부분은 이 과정에서 스타일 임베딩을 업데이트하지 않는다는 것인데, 이때 스타일 임베딩은 decoder가 fine-tuning 되는 것을 돕도록 스타일 정보를 제공하는 역할을 하는데에 이용될 뿐이고 중심어 복원 학습에 영향을 받아서는 안되기 때문입니다.
그리고 VAE의 latent space가 마스킹된 문장만 설명하는 분포로 옮겨지거나 왜곡되는 것을 방지하기 위해서 중심어 마스킹 작업은 전체 문장의 절반 정도만 수행했다고 합니다.
정리하면, 이 과정에서는 디코더가 마스킹된 문장을 복원하는 작업으로 모델의 fine-tuning을 진행하는데, 이때 stage I에서 학습한 latent space의 정보와 style embedding을 이용하게 됩니다.
Inference stage
Inference 과정에서는, 입력 문장 $x$에서 VAE를 통해 만들어진 latent feature $z$가 디코더로 보내지기 전에 조절됩니다.
더 구체적으로, $z$는 타깃 스타일 임베딩이 더해지고 원본 스타일 임베딩이 빠집니다.
직관적으로, 원본 스타일 정보는 제거되고 타겟 스타일 정보가 주입되는 과정이 스타일 임베딩의 뺄셈과 덧셈으로 수행이 될 것이 기대될 수 있다고 합니다. :
$z' = z + w \cdot (s_t-s_o)$
$w$는 스타일의 강도를 조절하는 가중치이고, $s_t$와 $s_o$는 각각 타겟 및 원본 스타일 임베딩입니다.
약간 이해가 안 되는 부분이 있는데,
학습과정에서 디코더는 항상 latent feature에 스타일 임베딩이 더해진 feature를 원본으로 복원하는 학습을 진행해왔습니다.
그렇다면 디코더는 latent feature에 스타일 임베딩이 더해진 입력이 들어올 것을 기대하게 되지 않을까 싶은데 논문에서 제시한 것처럼 원본 스타일 임베딩을 빼는 연산을 추가한 것에 의문이 들게 되었습니다.
만약 디코더가 원본 그대로를 생성하는 상황이라도 $z$에 원본 스타일 임베딩이 더해져야 할 것 같은데,
다른 스타일을 입히는 과정에서 원본 스타일 임베딩이 왜 빠져야 하는지에 대해서는 충분한 설명이 되지 않았다고 생각합니다.
Experiment
Task and Setting

- sentiment transfer
- Yelp dataset : business review labeled as positive/negative
- PTLM : RoBERTa
- formality transfer
- dataset : GYAFC (Grammarly's Yahoo Answers Formality Corpus)
- PTLM : RoBERTa
- Code-Switching Transfer (Hindi $\rightarrow$ Hinglish transfer)
- dataset : English-Hinglish translation dataset at LinCE (구축 과정은 논문에 적혀있음)
- PTLM : XLM-R
(이때 각 PTLM은 important score distribution을 구하기 위한 classifier로서 fine-tuning도 진행)
Evaluation Metrics
- Style Transfer Accuracy (Acc)
- 전체 문장 중에서 transfer가 잘 된 문장의 비율
- 원본 문장이 타겟 스타일로 잘 전환되었는지 분류하기 위해 fastText classifier를 이용
$\rightarrow$ 각 task에 대한 training data로 분류기를 학습시킴
분류기들은 각 task들에 대해 97.6%, 85.75%, 99.7%의 정확도를 보여줌
- Perplexity (PPL)
- 실험에서는 전환된 문장의 유창성을 측정하는데 이용했음
- Yelp, GYAFC처럼 영어로 된 데이터셋에 대해서는 GPT2를 이용해 측정
- code-switching의 경우 GPT2로 측정할 수 없어서 character-level LSTM을 직접 학습시켜서 측정
- BLEU scores (BLEU)
- 내용이 얼마나 보존되었는지 측정하는 데에 이용했음
- 전환된 문장과 human reference 간의 BLEU score계산
- code-switching task의 경우 human reference가 없어서, 원본 문장과 비교
- Geometric Mean (GM)
- overall performance
- acc, BLEU,$\frac {1}{\log {PPL}}$의 평균
Main Result

VT-STOWER의 전반적인 결과는 stage I보다 stage II의 결과가 괜찮았습니다.
좀 더 구체적으로, 세가지 task에 대해서 stage I과 비슷한 acc를 갖도록 w를 조정해서 stage II의 결과를 봤을때 PPL과 BLEU가 개선된 모습이 보여집니다.
예를 들어서, sentiment transfer의 경우 stage I과 stage II의 acc를 어느정도 비슷하게 맞춰놓고 다른 metric을 비교했을 때 PPL은 38.35 $\rightarrow$ 30.78, BLEU는 18.51 $\rightarrow$ 23.97 의 향상을 보여줬습니다.
위와 같은 사실은 중심어 마스킹 학습(stage II)가 문장의 완성도와 내용 보존에서의 개선시켜준다는 것을 뒷받침 합니다.
acc를 맞추어서 비교한 이유는 두 단계에서 모델들은 w에 대한 민감도가 달라서 공정한 비교를 하기 위함입니다.
그리고 다양한 baseline 모델들과의 비교에서도 제안된 모델의 GM이 가장 높다는 것을 확인할 수 있습니다.
sentiment style transfer에서는 VT-STOWER가 StyIns와 style transformer의 비교에서 PPL이 상당히 개선된 모습을 보여주었습니다. 이는 generation을 좀 더 자연스럽게 하고 있음을 보여줍니다.
formality transfer의 경우, style accuracy가 다른 baseline들에 비해서 급격히 높아졌음을 보여줍니다.
code-switching transfer에 대해서는, 이전 연구가 존재하지 않았기에 style transformer를 직접 학습시켜 비교했는데,
style transformer는 거의 100%에 가까운 정확도를 보여줬지만, PPL과 BLEU가 상당히 낮은 모습을 보여줍니다.
아마 데이터 수가 너무 적어서 style 분류를 잘 하는 모델이지만 언어 생성측면에서 학습이 덜 된 결과가 나타나는 것 같습니다.
반면에 VT-STOWER는 low-resource dataset에 대해서도 균형잡힌 결과를 보여줍니다.

Effect of Style Weights

inference 단계에서, $z'$의 타겟 스타일 강도는 style weight $w$로 조절됩니다.
이 실험에서는 stage II에서 학습된 모델을 다양한 $w$에 대한 세가지 metric의 경향을 비교하고, style weight $w$가 아웃풋에 얼마나 영향을 끼치는지 보여줍니다.
sentiment transfer task의 경우 $w$가 0.5부터 2.5까지 증가함에따라, accuracy가 증가하는 추세인 반면 BLEU, PPL에 악영향을 끼치는 추세를 보여줍니다.
$w$가 증가하면 더 많은 스타일 정보가 latent vector에 들어가게되고 디코더가 생성할 문장의 자연스러움이나 내용보다는 style feature에 좀 더 집중하게 됩니다.
즉, $w$는 PPL/BLEU와 transfer acc간의 trade-off hyper parameter입니다.

$w = 1.5,2,2.5$에 따라 긍정문장에서 부정문장으로 바꾸는 작업의 예시는 위 테이블과 같습니다.
$w=1.5$의 경우, 모델이 'enjoying'이라는 긍정어를 찾아낼 여지가 남아있고 이 단어로 인해 부정문이라고 보기엔 아직 애매합니다.
$w=2$의 경우, 모델이 'enjoying'을 'avoid'로 바꾸어서, 문장을 완전한 부정문으로 전환시켜줍니다.
$w=2.5$의 결과는 더 부정적인 단어로 교체가 되었지만 문장의 자연스러움은 고려되지 않은 결과가 나오게 됐습니다.
다른 transfer task들에 대해서도 비슷한 양상을 볼 수 있음을 그래프를 통해 알 수 있습니다.
본 논문은 VAE와 style embedding을 같이 학습하는 모델과 code-switching transfer라는 새로운 task를 제안합니다.
style embedding의 장점을 취하면서 모델이 스타일 강도를 조절할 수 있도록 설계했습니다.
평소에 관심 많던 VAE와 style transfer에 대한 논문이였는데 레퍼런스가 꽤나 많아서 읽는데 오래걸린것 같습니다ㅜ
본 논문에 대해 개인적으로 아쉬운점이 좀 남는다면 importance score와 inference 단계가 있는 것 같습니다.
importance score를 통해 마스킹한다는 부분은 마음에 들었으나, 채택된 방식이 확률적인데 마스킹이 제대로 되지 않을 가능성이 꽤나 많이 남아 있다고 느껴졌습니다.
개인적으로는 좀 더 결정적인 방식에 대한 결과는 어땠을 지 궁금하긴 합니다.
그리고 글이 좀 더 다듬어지면 좋겠다고 느꼇습니다.
'ai' 카테고리의 다른 글
| Attention is all you need (Transformer) (1) | 2023.11.20 |
|---|---|
| AR과 AE의 설명( in XL-Net ) (1) | 2023.11.20 |
| [메모용 | 2015 ICLR] Explaining and harnessing adversarial examples 전반부 (2) | 2023.11.20 |
| [CoNLL-2019] Exploiting the Entity Type Sequence to Benefit Event Detection 리뷰 (1) | 2022.08.07 |