わたしはサーバルキャットのサーバルだよ！

Mzyy94
Misc
19 Dec, 2017

けものフレンズ Advent Calendar 2017 - Adventarの20日目の記事です。

みんなーおはよー！先週あたらしいサーバルキャットのフレンズが誕生したんだって！すっごーい！どんな子なのかな！気になって夜も眠れなかったよ！

わたしはサーバルキッャトのサーバルだよ！
— サーバルキッャト (@mzyy94) 2017年12月16日

あなたもサーバルって言うんだね！

どんな声してるのー？わたし、気になっちゃった！！

--- 2年前

友利奈緒 Advent Calendar 2015 - Adventar

すっごーい！友利奈緒のフレンズがたくさん誕生したんだって！引くなっ！

？？？「フレンズ化する前の声と似てるフレンズもいるみたいだよぉ～」

友利奈緒の声を求めて - kivantium活動日記

？？？「そんなに似てる声じゃないのだ！」

「少々研究が足りなかったようですね、博士」

「研究不足ですね、助手」

--- 2017年

「2年前の声の似たフレンズの話は覚えてますか、助手」

「声質変換で自分の声を変換してしゃべるフレンズのことですね、博士」

「あれから2年経っているのでそろそろ本当に似てる声のフレンズが登場してもおかしくないと思うのですよ」

「なるほど、確かにヒトのぎじゅつの進歩はすさまじい勢いですからね」

「そのぎじゅつを使って我々の力でフレンズの声をまねることはできませんかね、助手」

「ちょいちょいなのですよ」

声質変換

「ところで誰かせいしつへんかんとはどういうものか理解していますか」

？？？「おまかせなのだ！」

？？？「あらいさーん、出しゃばっちゃだめだよぉ～」

アライさん「ふっふーん、ぎじゅつについてはかばんさんにお任せなのだ！」

？？？「え、ぼく…！？」

？？？「がんばって、かばんちゃん！」

かばん「えっと、声質変換というのはですね、まず真似したいフレンズがしゃべった言葉を自分の声でも収録して、自分の声質をどう変換したら真似したいフレンズの声質になるかを計算して、これをパラレルデータ変換というんですけど、その変換式をつくります。その変換式を通すと、例えばセルリアンの声が真似したいフレンズの声に聞こえてくるというものです。わかりましたか…？」

？？？「ぜんぜんわからん。」

？？？「そんなぁ！ひどいよ！かばんちゃんは一生懸命説明してくれたんだよ！どんな困難な課題にも挑んで、どんな素人からの質問にも耐えて、一生懸命がんばってるんだよ！」

かばん「概要を説明するより論文を読んでもらったほうがいいですね。」

Statistical Parametric Speech Synthesis Incorporating Generative Adversarial Networks - IEEE Journals & Magazine

？？？「ぜんぜんわからん。」

「よりわからなくなりましたね、助手」

アライさん「それでも博士号持ちなのだ？！」

「我々は賢いので、博士課程には進んでいないのです。」

かしこいので pic.twitter.com/h5YnG36jZY
— サーバルキッャト (@mzyy94) 2017年3月11日

？？？「博士って博士じゃなかったの！？」

「サーバルのギャグはいいとして」

サーバル「ギャグじゃないよ！」

変換ぷろぐらむ

？？？「でもぉこりぇで本当にちょいちょい？ってできるにょ？」

「我々は賢いので、論文の実装をもう見つけてあるのですよ」

サーバル「すっごーい」

【声質変換編】Statistical Parametric Speech Synthesis Incorporating Generative Adversarial Networks [arXiv:1709.08041] - LESS IS MORE

「これにサーバルの声をたくさん突っ込んで真似させるのです。」

サーバル「わたしそんなに声収録するのやだよ！」

「大丈夫なのです。すでに200前後の声は収録してあるのです。」

サーバル「えっ」

フレンズぼいす

けものフレンズあらーむ - Tyrell Systems

「このアプリで全部の声を聴けるように毎日アラームをセットし続けるのです。」

「サーバルは朝が弱いのでぴったりなのです。」

「全部聴けるようになったら呼ぶのですよ。」

「録音してちょいちょいするのです。」

変換元ぼいす

「サーバルの声が集まったら、あとはそのセリフを読み上げた音声を用意するだけですね、助手」

「ぱそこん、に向かって延々と収録してもらうだけなのです。」

Audacity® | Free, open source, cross-platform audio software for multi-track recording and editing.

機械学習

「この変換ぷろぐらむは声質変換に機械学習を用いるのです。」

サーバル「きかいがくしゅう？なにそれなにそれ！」

がんばれがんばれ♡ pic.twitter.com/md81w8kKb8
— サーバルキッャト (@mzyy94) 2017年6月14日

「きかいにヒトやフレンズの学習を真似させるものなのです。」

「最近は自動着色とかで一般人が簡単に使えるようになってきているのですよ。」

そしてこっちが自前で作ったカスタムけものフレンズモデルで着色

両方ともヒント無しでこの仕上がり pic.twitter.com/rqAkCiRBnb
— サーバルキッャト (@mzyy94) 2017年6月15日

「すっごーい！どうやったのー！？」

「つよいぱそこんを使ってやるのです。」

GTX 1070とKaby Lake i5で新しくメインPC組んだ

4Kの広大なモニタを生かすためにも、Kaby Lake世代のCPUとNVIDIA Pascal™アーキテクチャのGPUを搭載したマシンを組みたくなったので組んでみました。小さなPCしか買えない体質なので、スペックはある程度妥協してサイズ優先で組むことにしました。目次ハイスペック小型マシン購入候補まずは手持ちのPC一覧。 ...