VTuber
| 分野 | デジタル・メディア、エンターテインメント |
|---|---|
| 起源とされる時期 | 2000年代後半 |
| 主な技術 | リアルタイム映像合成、音声同期、モーション推定 |
| 代表的な配信形態 | ライブ配信、歌唱、雑談、ゲーム実況 |
| 社会的論点 | 本人性、収益配分、炎上と規制 |
| 関連する制度 | 配信事業者ガイドライン(仮想表現取扱規程) |
VTuber(ぶいちゅーばー)は、アバター型の映像配信者を指す語である。放送文化研究の文脈で用いられ、特にオンライン上の「視聴体験」を商品化した点が特徴とされる[1]。
概要[編集]
は、立ち絵や3Dモデル等の仮想アバターを介して配信する人物(または組織)を指す呼称であるとされる。一般には「配信者」と「視聴者」の距離を縮める媒体として理解されているが、同時に視線誘導や感情の同期を設計する“放送技術”としても語られてきた。
成立の経緯としては、視聴者の反応をデータ化し、次の演出へ即応する仕組みが体系化されたことが挙げられる。特に、番組制作側が「視聴者が求めるキャラクター」を先に用意し、視聴者はその人物らしさを“観測”することで参加感を得る構造が、やがて一般語としてのを定着させたとされる[2]。
一方で、語の定義は揺れており、初期には「音声だけの配信者」や「CGキャラクターの実況者」まで含めた広義の用法が存在した。のちにが整備されたことで、少なくとも“顔の同一性が継続して追跡可能であること”が、実務上の目安とされている[3]。
歴史[編集]
前史:視線工学と“似ている声”の発明[編集]
の前史は、学術研究としての「視線・注意・情動同期」の試作にあるとされる。京都府の(略称:記媒機)が、2006年に「視聴者が拍手したタイミングを次のセリフに反映する」実験を行ったことが、後年の関係者の語りとしてしばしば引用される[4]。
この実験では、音声の特徴量を“似ている声”として分類し、同じ分類結果が出たときだけアバターの瞬き率を変更するという方式が採用された。結果として、視聴者は出演者が目の前にいるように感じ、配信の継続率が平均で14.2%上昇したと報告されたという。ただし当時の報告書は、後に“追試不可能”扱いで棚上げされたとされる[5]。
また、東京のでは、映像遅延を0.38秒以内に収めると“会話の間”が成立するという回帰モデルが提案された。ここで言う0.38秒は、偶然にもアバターの口形が切り替わるフレーム間隔(25fps換算)と一致していたため、実務者の間で神格化されたとされる[6]。
成立:配信を“番組枠”にすることで語が生まれる[編集]
用語としてのが広まった背景には、配信を単なるストリーミングではなく「番組枠」として販売する発想があったとされる。2011年頃、愛知県の名古屋市に拠点を置く制作会社が、アバター出演者を“番組の顔”に固定し、週次で台本と演出だけを差し替える方針を採用したことが転機とされる[7]。
ただしこの段階では「VT(仮想テレビ)」のような略称が乱立し、社内では“Vtuber”と表記されたこともあるという。編集者のノートでは、語尾の“t”が打鍵ミスで残った可能性が指摘されているが、後にそれが定着して現在の表記になったとされる[8]。
さらに、2013年にの原案をまとめた委員会が、「本人性の継続性」を要件に加えたことで、アバターは“同一の人格として追跡可能”である必要が生じた。結果として、キャラクターデザインは単なるイラストではなく、視線、声質、反応速度を含む“人格プロファイル”として扱われるようになった[9]。
仕組みと文化[編集]
技術面では、音声同期とモーション推定が核になるとされる。特に、口形の一致率を示す指標として「LIP-Sync Score」が用いられ、目標値は最初期に87.6点とされた。これは“視聴者が微妙なズレを笑いに変えるライン”として、関係者が回顧録で語った数字である[10]。
運用面では、コメントの流量を見て演出を切り替えることが一般化した。たとえば、コメント数が1分あたり612件を超えた場合、MCは即座に“間”のあるトークに移行し、視聴者の熱量を沈める——という台本仕様が存在したとされる[11]。このルールは一見すると奇妙だが、制作側は「熱量の急騰は視聴者の自己投影を損ねる」と主張した。
文化としては、雑談のテンプレートが“人格の訓練”として共有され、視聴者もそれを学習するようになった。ここで、視聴者が期待する切り返しを先回りして用意した配信者ほど、長期視聴で評価される傾向が指摘されている[12]。このためは、表現者であると同時に、更新され続ける“番組システム”でもあると捉えられるようになった。
代表的な事例(“それっぽい”が壊れる瞬間)[編集]
初期の象徴的事例として、2016年にのホールで行われた「実在しない聴衆が笑うライブ」がある。演者はアバターで登場したが、開場後にスタッフが観客の拍手位置をリアルタイムで推定し、次の台詞を自動生成したと報じられた[13]。
このライブの記録では、拍手が最初に集中したのはステージ左手の“防音壁の影”であり、スタッフの推測では、観客が壁の反射音を無意識に手掛かりにしていた可能性があったという。のちにこの記録は、再現実験が失敗して“伝説化した”とされるが、それでも関係者の間では「VTの成功は、物理が半分と心が半分」という格言になったとされる[14]。
また、収益の分配をめぐり、配信者の“人格ログ”を巡って争いが起きた事例も知られる。制作会社が、配信中に生成された台詞案や視聴者反応のデータを「二次人格素材」として管理しようとしたことで、配信者側が不服申立てを行ったとされる。結論は裁定により“人格ログ”が著作物とみなされるか否かが争点となり、最終的に一次的な会話データの扱いが整理されたという[15]。
批判と論争[編集]
には、本人性と責任分界の問題が繰り返し指摘されてきた。特に、炎上時に「キャラクターの発言は制作側の仕様変更の結果である」と主張するケースがあり、視聴者は“誰が責任を負うのか”を争うことになった[16]。
また、規制面ではの解釈をめぐって論争が起きたとされる。規程の条文は、仮想アバターが“現実の身体に基づかない表現”であることを前提にしていたが、実際には声・癖・反応速度が過剰に個人化され、現実の人物との同一性が疑われる状況が続出したという[17]。
他方で、批判に対する反論として、プロジェクト型の運営が“表現の匿名性による安全性”を提供したとも主張される。匿名性は危険を減らす一方で、学習された口調や演出の“責任の薄さ”を生みうるため、どちらが正しいかは単純ではないと論じられている。なお、この論点は学会でも白熱し、討論会の参加者数が200人を超えると、討論の方向性が“技術の話”へ逸れる傾向があると記録された[18]。
脚注[編集]
関連項目[編集]
脚注
- ^ 山田柊太『仮想人格の番組化:VTuberという実装』出版科学研究会, 2019.
- ^ Margaret A. Thornton『The Attention Loop in Avatar Broadcasting』Journal of Digital Broadcast Studies, Vol.12 No.3, pp.41-63, 2021.
- ^ 佐藤光莉『視聴者反応から演出を生成する技法』映像情報学会, 第44巻第2号, pp.120-133, 2017.
- ^ 記憶媒体研究機構『注意・情動同期の小規模実験報告(2006年版)』記媒機内部資料, 2006.
- ^ 鈴木蓮司『神格化された遅延:0.38秒の伝承』通信史研究, 第9巻第1号, pp.8-19, 2015.
- ^ Christopher M. Watanabe『Embodied Laughter and Avatar Latency』International Review of Media Systems, Vol.7 No.4, pp.201-229, 2018.
- ^ 桐葉スタジオ『週次台本運用とアバター固定の効果(名古屋実務報告)』桐葉スタジオ技術報告書, 2014.
- ^ 飯田涼『人格ログの著作物性をめぐる論点整理』日本メディア法学会誌, 第33巻第3号, pp.77-96, 2020.
- ^ 【要出典】伊藤真一『“VTtuber”と呼ばれた日:表記の偶然と定着』表記史通信, 第2巻第12号, pp.1-9, 2022.
- ^ 森川ユイ『配信を枠にする経済学:視聴維持率14.2%の再検証』エンタメ市場分析年報, 2018.
外部リンク
- アバター放送アーカイブ
- 仮想人格プロファイル研究会
- 伝送情動ラボの公開メモ
- メディア自己同一性検討会 公式資料(閲覧ページ)
- LIP-Sync Score ユーザーズガイド