
近年、音声合成技術の進化が加速し、ビジネスやクリエイティブ分野での活用が広がっています。その中で、自然な抑揚と豊かな表現力を持つAI音声生成ツール「AivisSpeech」が注目を集めています。
本インタビューでは、AivisSpeechの特徴や活用事例、法人向けライセンス、開発の背景、そして今後の展望について、AivisSpeechを開発するJPchain株式会社 代表取締役 大森 駿斗さんに詳しく伺いました。
≫かんたんに感情豊かな音声合成「AivisSpeech」について詳しくはこちら
AivisSpeechの利用状況と問い合わせ対応 ―ユーザーの声と企業の課題
—— AivisSpeechを使っている方からの問い合わせにはどのようなものが多いのでしょうか?
個人ユーザーの場合は、そもそも使い方が分からないといった基本的な質問や、ライセンスに関する疑問が多いです。
一方で、法人ユーザーはより幅広い内容でお問い合わせをいただいています。例えば、AivisSpeechを活用した新規事業の相談や、ライセンスに関する法的な問題、事業に組み込む際の具体的な手順についての問い合わせがあります。
—— ライセンスについての問い合わせというのは、具体的にどのような内容でしょうか?
AivisSpeechは商用利用が可能なツールとして提供していますが、利用者の皆さんの関心は、音声を自由に使っていいのか、ライセンス表記は必要なのか、といった部分に集中しています。
—— 問い合わせ対応はどのように行われているのでしょうか?
現在はAIを活用して問い合わせの分類を行い、実際の対応は基本的に人力で行っていますが、自動返信のAIを開発中で今後その導入を予定しています。
AivisSpeechの特徴と活用領域 ―企業の課題解決と競争優位性
—— AivisSpeechはどのようなツールでしょうか?
文章を入力すると、非常に感情豊かで人間らしい音声を簡単に生成できるAIツールです。そのため、潜在的な課題を解決するツールとしての役割を果たしています。

例えば、従来のコールセンターでは、人が対応することでコストや人材確保の問題が発生していました。一方で従来の音声合成技術では、機械的な音声によって顧客に不信感を与えてしまう可能性がありましたが、AivisSpeechを活用すれば、より自然な音声で自動対応が可能になります。
—— 企業以外の活用例としては、どのようなものがありますか?
個人のクリエイターも多く利用していてメリットがあります。特にYouTubeやニコニコ動画などの動画制作において、感情豊かなナレーションを作成できるため、より表現力の高いコンテンツを生み出せます。
また、従来の音声合成技術では難しかったアニメーションやゲームの音声にも応用できるため、クリエイティブの幅を広げることができます。
—— 法人での活用には、どのような課題があるのでしょうか?
法人での導入は、ライセンスに関する法的なハードルがあるため、慎重に進める必要があります。
音声モデルの多くが個人ユーザーによって作成されているため、法人が利用する際に適切な許可を得る必要があります。そのため、法人向けの特別なライセンスプランを用意して、安心して利用できる環境を整えています。
法人向けライセンスと活用事例 ―企業のニーズに応える音声技術の展開
—— 法人向けライセンスプランの反響はいかがでしょうか?
非常に好評をいただいています。従来の音声合成ツールと比較して、圧倒的に使いやすく、音声の質が高いという点が評価されています。
特にeラーニングコンテンツを制作している企業からの問い合わせが多いですね。日本語の発音やイントネーションの自然さが求められる分野では、既存のツールと比べても品質の高さが際立つため、導入が進んでいます。
—— どのような点が企業にとって魅力的なのでしょうか?
まず、音質の高さです。また、使える音声モデルの種類が非常に多いため、わざわざ新しい音声モデルを作成する必要がないというメリットもあります。企業のコンテンツごとに適切な音声を選べる柔軟性があるのもポイントです。
—— 具体的な活用事例を教えていただけますか?
例えば、企業が社内研修用のeラーニングコンテンツを制作する際に、AivisSpeechを活用することでナレーションを簡単に作成できます。また、顧客向けのプレゼンテーション動画や、社内向けの情報共有資料の音声化などにも活用されています。
なお、業界ごとに適した音声の提案も可能です。例えば、病院向けの案内音声では落ち着いた渋めの男性の声が求められることが多く、若年層向けのエンタメ系コンテンツでは明るい女性の声が好まれる傾向があります。このように業界ごとのニーズに合わせた音声選択の提案も行っています。
音声生成サービスとユーザー層 ―利用者の多様なニーズに応える「まるなげボイス」
—— AivisSpeechの音声生成サービス「まるなげボイス」とは、どのようなサービスでしょうか?
まるなげボイスは、ユーザーが自身の音声データを提供することで、その音声を元にAI音声モデルを作成するサービスです。

元々は5万円で提供していましたが、需要が増えたため、現在は10万円で提供しています。利用者層は非常に幅広いです。基本的には法人向けのサービスですが、個人の方が自分の声を保存したい、あるいは自分の声でAIを活用したいというケースもあります。
—— 具体的に、どのような場面で活用されていますか?
例えば、ポッドキャストを運営している方は、毎回収録する手間を省くために自身の音声モデルを作成し、テキストを入力するだけで音声コンテンツを生成しています。
また、企業の代表者や講師などが、セミナーやプレゼンテーションを自動化するために利用するケースもあります。
—— 企業にとって、どのようなメリットがあるのでしょうか?
経営者や講師の方々は非常に多忙で、コンテンツを一から録音する時間を確保するのが難しいことが多いです。
そこで、事前に自分の音声モデルを作成しておけば、テキストを入力するだけでスムーズにコンテンツを作成できるため、大幅な時間削減につながります。
—— 今後、このサービスをどのように展開していく予定ですか?
現在の法人向けプランに加え、個人クリエイター向けの利用も拡充していく予定です。
特にYouTubeやeラーニングなどの分野では、個人でもプロ品質の音声を求めるニーズが増えているため、より手軽に導入できるような仕組みを整えていきたいと考えています。
AivisSpeechの開発背景と市場戦略 ―最先端技術を社会実装する挑戦
—— AivisSpeechの開発に至った経緯を教えていただけますか?
当社は元々ブロックチェーン事業を行う企業としてスタートしました。会社のビジョンとして、“最先端技術を社会実装する”という目標があり、その中で音声合成技術が急速に進化していることに着目しました。
約1年半前に、現在の音声合成技術の基盤となる技術が発表されましたが、それを活用した実用的なサービスがまだなかったため、社内で議論を重ねた結果、AivisSpeechの開発がスタートしました。

—— なぜ音声合成という分野を選ばれたのでしょうか?
私たちは、ただ新しい技術を導入するだけでなく、それが実際にエンドユーザーにとって使いやすい形になっているかを重視しています。
音声合成技術は当時すでに存在していましたが、UIやUXが最適化されていなかったため、より直感的で誰でも利用しやすいツールを作ることに価値があると考えました。
—— AivisSpeechの市場戦略について教えてください。
当社の目標は、音声合成市場において覇権を取ることです。既存の音声合成ツールは、音声形式や仕様がバラバラで、法人が活用するには手間がかかるという課題がありました。
そこで、私たちは独自の音声合成ファイルフォーマット『AIVM』を開発し、一つのプラットフォームで様々な用途に対応できる仕組みを作りました。
—— 具体的にどのような展開を予定していますか?
まずは日本国内での法人向け展開を強化し、その後グローバル市場への進出を視野に入れています。特に、日本はアニメやゲームなどのコンテンツ制作が盛んな国なので、そこから世界へ広げていく戦略を考えています。
また、クリエイター向けの新しい機能を追加し、個人ユーザーにもより幅広く利用してもらえるようにしたいと考えています。
—— 競争の激しい音声合成市場の中で、AivisSpeechの強みはどこにあるのでしょうか?
一番の強みは、圧倒的な音声品質の高さです。単に文字を読み上げるのではなく、人間の抑揚や感情表現を自然に再現できる点が評価されています。
また、ユーザーが自由に音声モデルを選択・作成できる柔軟性も大きな差別化要因です。
さらに、法人向けのライセンスを明確にし、安心して導入できる仕組みを整えていることも、他社との差別化ポイントになっています。
AivisSpeechの今後の展望 ―音声合成市場の未来とメディアの役割
—— 今後、AivisSpeechをどのように展開していく予定でしょうか?
まずは法人向けサービスの本格展開を進めていきます。現在、ライセンスの課題をクリアにした法人向けプランを開発しており、それが完成すれば、より多くの企業に安心して導入いただけるようになります。
また、eラーニングやカスタマーサポートといった分野でも活用を広げていく予定です。
—— グローバル展開についてはどのように考えていますか?
音声合成市場は、日本だけでなく世界的に注目されている分野です。特に、日本のアニメやゲーム業界と親和性が高いため、まずは国内市場で基盤を作り、その後海外展開を進める計画です。
海外では、多言語対応の音声合成技術のニーズが高まっているため、その点も視野に入れて開発を進めています。
—— AivisSpeechが音声合成市場で目指すポジションは?
音声合成技術のインフラを担う存在になりたいと考えています。現在の音声合成市場では、各ツールの音声合成ファイルフォーマットが異なり、統一されていないことが課題です。そこで、独自の音声パッケージフォーマット『AIVM』を活用し、業界標準となるプラットフォームを確立することを目指しています。
—— AI技術を広めるために、WA2メディアに期待することはありますか?
エンジニア視点からの技術解説や、開発者にとって有益な情報を提供していただけると嬉しいです。AivisSpeechは、一般ユーザー向けのツールとしてだけでなく、開発者が自分の技術を活かせるプラットフォームとしても活用できる可能性を持っています。
そのため、技術者向けのコンテンツや、音声合成技術の活用事例などを発信していただけると、より多くの方にこの分野の可能性を知ってもらえると思います。
≫かんたんに感情豊かな音声合成「AivisSpeech」について詳しくはこちら
WA²では「AivisSpeech」のAI導入支援やAI-OJT(eラーニング)を行っています。詳細はお気軽にお問い合わせください。
公式サイト