mzyy94
by mzyy94
5 分間で読めます

カテゴリー

タグ

けものフレンズ Advent Calendar 2017 - Adventarの20日目の記事です。


みんなーおはよー! 先週あたらしいサーバルキャットのフレンズが誕生したんだって!すっごーい! どんな子なのかな!気になって夜も眠れなかったよ!

あなたもサーバルって言うんだね!

どんな声してるのー? わたし、気になっちゃった!!

目次

  1. — 2年前
  2. — 2017年
    1. 声質変換
    2. 変換ぷろぐらむ
    3. フレンズぼいす
    4. 変換元ぼいす
    5. 機械学習
    6. 声質変換学習
    7. 成果
  3. まとめ

— 2年前

友利奈緒 Advent Calendar 2015 - Adventar

すっごーい!友利奈緒のフレンズがたくさん誕生したんだって!引くなっ!

???「フレンズ化する前の声と似てるフレンズもいるみたいだよぉ~」

友利奈緒の声を求めて - kivantium活動日記

???「そんなに似てる声じゃないのだ!」

「少々研究が足りなかったようですね、博士」

「研究不足ですね、助手」

— 2017年

「2年前の声の似たフレンズの話は覚えてますか、助手」

「声質変換で自分の声を変換してしゃべるフレンズのことですね、博士」

「あれから2年経っているのでそろそろ本当に似てる声のフレンズが登場してもおかしくないと思うのですよ」

「なるほど、確かにヒトのぎじゅつの進歩はすさまじい勢いですからね」

「そのぎじゅつを使って我々の力でフレンズの声をまねることはできませんかね、助手」

「ちょいちょいなのですよ」

声質変換

「ところで誰か せいしつへんかん とはどういうものか理解していますか」

???「おまかせなのだ!」

???「あらいさーん、出しゃばっちゃだめだよぉ~」

アライさん「ふっふーん、ぎじゅつについてはかばんさんにお任せなのだ!」

???「え、ぼく…!?」

???「がんばって、かばんちゃん!」

かばん「えっと、声質変換というのはですね、まず真似したいフレンズがしゃべった言葉を自分の声でも収録して、自分の声質をどう変換したら真似したいフレンズの声質になるかを計算して、 これをパラレルデータ変換というんですけど、その変換式をつくります。その変換式を通すと、例えばセルリアンの声が真似したいフレンズの声に聞こえてくるというものです。わかりましたか…?」

???「ぜんぜんわからん。」

???「そんなぁ!ひどいよ!かばんちゃんは一生懸命説明してくれたんだよ!どんな困難な課題にも挑んで、どんな素人からの質問にも耐えて、一生懸命がんばってるんだよ!」

かばん「概要を説明するより論文を読んでもらったほうがいいですね。」

Statistical Parametric Speech Synthesis Incorporating Generative Adversarial Networks - IEEE Journals & Magazine

???「ぜんぜんわからん。」

「よりわからなくなりましたね、助手」

アライさん「それでも博士号持ちなのだ?!」

「我々は賢いので、博士課程には進んでいないのです。」

???「博士って博士じゃなかったの!?」

「サーバルのギャグはいいとして」

サーバル「ギャグじゃないよ!」

変換ぷろぐらむ

???「でもぉこりぇで本当にちょいちょい?ってできるにょ?」

「我々は賢いので、論文の実装をもう見つけてあるのですよ」

サーバル「すっごーい」

【声質変換編】Statistical Parametric Speech Synthesis Incorporating Generative Adversarial Networks [arXiv:1709.08041] - LESS IS MORE

「これにサーバルの声をたくさん突っ込んで真似させるのです。」

サーバル「わたしそんなに声収録するのやだよ!」

「大丈夫なのです。すでに200前後の声は収録してあるのです。」

サーバル「えっ」

フレンズぼいす

icon@1x

けものフレンズあらーむ - Tyrell Systems

「このアプリで全部の声を聴けるように毎日アラームをセットし続けるのです。」

「サーバルは朝が弱いのでぴったりなのです。」

「全部聴けるようになったら呼ぶのですよ。」

「録音してちょいちょいするのです。」

変換元ぼいす

「サーバルの声が集まったら、あとはそのセリフを読み上げた音声を用意するだけですね、助手」

「ぱそこん、に向かって延々と収録してもらうだけなのです。」

Audacity® | Free, open source, cross-platform audio software for multi-track recording and editing.

機械学習

「この変換ぷろぐらむは声質変換に機械学習を用いるのです。」

サーバル「きかいがくしゅう?なにそれなにそれ!」

「きかいにヒトやフレンズの学習を真似させるものなのです。」

「最近は自動着色とかで一般人が簡単に使えるようになってきているのですよ。」

「すっごーい!どうやったのー!?」

「つよいぱそこんを使ってやるのです。」

声質変換学習

「ぼいすが準備できたらあとはレシピにしたがってちょいちょいです」

Voice conversion (en) - r9y9/gantts: PyTorch implementation of GAN-based text-to-speech synthesis and voice conversion (VC)

「変換したいボイス200つをclbに、アラームで録音したサーバルのボイスを200つsltに用意して、待つだけなのです。」

成果

「サーバル、学習の成果はでたのですか?」

サーバル「

「何をしているのですか、まったく!」

サーバル「

まとめ

サーバル「年明けまでにはなんとかするよぉ」

アライさん「サーバルにおまかせなのだ!」

サーバル「ひどいよ!」

「やれやれ、進捗は年末にきたいするとしますか」

???「先生!原稿の進捗はどうですか!?」

???「まってくれ」