【検証】阿慈谷ヒフミは「平均的」なのか?~使用語彙の観点から~

  • 1二次元好きの匿名さん25/06/02(月) 22:49:10

    自分の研究から現実逃避してブルアカばかりやっている錠前サオリだ。


    早速だが、先生は語彙調査というものを知っているか?


    言語学の分野で行われる調査の1つで、無数の文のデータを単語ごとに切り分け、どのような語が何回使われているかを調べる調査だ。


    それをブルアカのセリフでやってみようという試みがこのスレだ。



    ああ、最初に言っておこう、主は一応言語学を専攻してはいるが、ただの学生であり、専門は文法だ。語彙調査はそこまで専門というわけではない。どうか温かい目で見てくれ。


  • 2二次元好きの匿名さん25/06/02(月) 22:49:56

    面白そう

  • 3二次元好きの匿名さん25/06/02(月) 22:51:37

    期待

  • 4二次元好きの匿名さん25/06/02(月) 22:51:39

    1年ぐらい前?にハナコでやってる人がいた様なおぼろげな記憶
    違う人だと思うけど楽しみ

  • 5二次元好きの匿名さん25/06/02(月) 22:51:40

    今回扱う対象は、トリニティ総合学園の阿慈谷ヒフミのセリフだ。


    彼女は「普通」を自称しているが、それは本当にそうなのか?ということを、セリフで用いられている語彙の観点から他の生徒と比較して検証してみたい。


    なお、私は前にも類似のスレを建てたことがあるため、そちらも軽く参照してもらえるとありがたい。

    ブルアカセリフの語彙調査スレ|あにまん掲示板bbs.animanch.com
  • 6二次元好きの匿名さん25/06/02(月) 22:52:21

    失礼、同じ方でしたか

  • 7125/06/02(月) 22:55:16

    ということで、素材としてヒフミの絆ストーリーに出てきたヒフミの発話を1話から5話まですべて手動で書き起こしました。

    ……6話は愛用品と完全にカン違いしていたので、あとでもう1話分書き起こしてきます

  • 8二次元好きの匿名さん25/06/02(月) 22:56:38

    >>7

    さらっと凄い労力掛かってるじゃん、お疲れ

  • 9125/06/02(月) 23:00:23

    比較対象のキャラをランダムピックしようと思ってるので、ヒフミ以外の比較用データは現状ゼロです。

    あと恐らくかなり「平均的」であろうアイリは確定で入れます。敬語キャラだし。


    書き起こし終わるまでに過疎って落ちそうな気もするけどとりあえず続行します。


    比較対象のキャラはダイス神に決めてもらいます(主が持ってなかったらその分引き直し)

    dice3d124=17 41 9 (67)

    衣装違い(1ならデフォ衣装、ない場合は通常) dice3d3=3 1 1 (5)

  • 10125/06/02(月) 23:01:43

    イロハ サツキ アヤネ 全員通常ですね

    サツキ持ってないのでそこだけ再選

    dice1d124=30 (30)

  • 11125/06/02(月) 23:02:31

    キサキもいない!!

    3回振って一番左側の持ってるキャラにします dice3d124=106 47 119 (272)

  • 12二次元好きの匿名さん25/06/02(月) 23:02:56

    本格的だ…!

  • 13125/06/02(月) 23:03:40

    ということで、イロハ、ミヤコ、アヤネとなりました
    全員敬語ですがまあいいでしょう

    それでは10まで埋まってるので一旦ヒフミの絆6話書き起こしてきます

  • 14二次元好きの匿名さん25/06/02(月) 23:04:35

    頑張って

  • 15二次元好きの匿名さん25/06/02(月) 23:05:11

    月曜の夜中にやる作業量ではないw
    でも学生らしくていいな(オッサン並感)

  • 16二次元好きの匿名さん25/06/02(月) 23:09:31

    ハナコスレ見てきたけど心理学じみてるね

  • 17125/06/02(月) 23:19:16

    書き起こしてきました


    これを単語に分割していくのですが、流石に手作業は無理なので、デジタル時代の利点と過去の研究者の方々の功績に乗っかることにします。


    形態素解析ツールは「Web茶まめ」を使います

    Web茶まめchamame.ninjal.ac.jp
  • 18125/06/02(月) 23:21:28

    単語に区切るとこんな感じです
    なんのことやらって感じですね
    これをある程度分析しやすい形のファイルに加工していきます

  • 19125/06/02(月) 23:42:37

    ピポットテーブル機能で分類項目ごとにカウントできるようにしました。

    これから文の区切れに使われた記号をPUするとこの画像の「。」「)」「!」「?」「♪」「♬」の6個を合計した数が合計の文の数になります(正しくは一度だけ使われた「!?」の「!」の分を合計から引いた数)

    なので、ヒフミの絆では合計215個の文があることになります。

  • 20125/06/02(月) 23:45:51

    単語の総合計は2779個なんで、平均して12.92558……→約13語の文がヒフミのしゃべる長さの平均値ということになります。

  • 21二次元好きの匿名さん25/06/02(月) 23:47:49

    何か難しい話してる…応援ならするから頑張ってくれ

  • 22二次元好きの匿名さん25/06/02(月) 23:48:02

    シミコとかかなり普通の女の子だよ
    入れてみてはいかが?

  • 23125/06/02(月) 23:57:10

    名詞の使用頻度トップ30語

    「桃」「フレンズ」は「モモフレンズ」という固有名詞で使用回数が多くなってるし、「ぬいぐるみ」「キャラクター」あたりはヒフミの趣味がしっかり反映されてますね

    ペロロは単語に区切るときに登録語彙になかったのでここに反映されてませんが、おそらく「様」の使用回数20回と同数と見ていいでしょう

    「友達」は一般語彙ですが、これが14回も出てきてることに彼女の性格が出てる気がしますね

  • 24二次元好きの匿名さん25/06/03(火) 00:02:53

    >>20


    自分/の/パーソナリティ/に/触れる/絆/ストーリー/の/セリフ/なら/平均/13/語/は/まあまあ/普通/より/か・・・?

    頭/使わ/ない/日常/会話/なら/もう/チョイ/少な/そう

    単語/の/区切り/方/間違って/たら/申し訳ない


    avg(18,10,7)≒12

    ちょっとやりすぎに単語切って平均12個はこんなぐらいか

    そんなに長く感じないな

  • 25125/06/03(火) 00:05:00

    動詞上位

    する・みる・ある・いる・いう・思う・いく あたりは誰のどんな文章でも上位にくる語と言われています。

    「しまう」「しれる」はおそらく単独での使用よりも「~てしまう」「~しれません」のように他の語の後についてるものがカウントされているのでしょう。
    ここはなんとなく特徴っぽい気がしますね。他のキャラと比較する観点として心に留めておきます。

    それに加えて「くださる」が多いのは敬語キャラゆえですね。ほかの敬語キャラでこの語(尊敬語)は多いのかも着目しいところですね

  • 26125/06/03(火) 00:07:19

    >>24

    区切り方はそれであってると思います。

    ……本当は平均よりも中央値とか出すべきなんでしょうけど、文長を数え直すと事前作業が終わらないのでひとまず平均値を比べたいと思います。

  • 27二次元好きの匿名さん25/06/03(火) 00:08:04

    >>21

    「阿慈谷ヒフミさんのセリフから、それを単語単位で分割して、過去の研究事例なんかと比較すれば」「彼女の使用単語という観点で、平均や中央値からかけ離れていないか、という分析ができるんだよ」


    「先生はみんな、ヒフミさんを普通の女の子と片づけるのは無理がある、という共通見解を持っていると思うんだ」

    「そこで、会話で登場する単語や品詞の登場頻度などの観点で、普通かどうか?」

    「普通でないなら、何が異常値か?」

    「を分析しているのが今の流れだね」


    「わかりやすい例で言うと、!の数が多ければ、意図的に語気の強いキャラクターとして描枯れていることがわかったり、とかするね」

    「他にも、前回のハナコさんの下ネタの頻度だったり、コハルさんのエッチや死刑といった単語よりも、モモフレンズや友人に関する単語の頻度が多ければ」

    「彼女がそれに対して執着心の強いキャラクターとして描かれていると考えることもできるね」

  • 28125/06/03(火) 00:10:41

    さて日付も変わったので寝ます

    比較のために4人も書き起こすの無理な気がしてきたので、アイリとお勧めされたシミコを対象としたいと思います。


    >>27

    丁寧な補足ありがとうございます、助かります

  • 29二次元好きの匿名さん25/06/03(火) 00:14:07

    >>27

    はえーサンガツ。普通に分かりやすいわ…

  • 30二次元好きの匿名さん25/06/03(火) 07:44:42

    朝保守

  • 31二次元好きの匿名さん25/06/03(火) 08:18:44

    アツコもきたのか…

  • 32二次元好きの匿名さん25/06/03(火) 09:06:57

    言語学の方面には全く明るくないけど気になったことがある

    絆ストーリーを分析するということみたいだけれど、モモトークの内容は対象にしてたりするのだろうか
    普段の会話の文とモモトークの会話の文であまり文体が変わらないような生徒と大きく変わる生徒がいると思っていて、そこからも平均的、もしくは乖離しているかが読み取れたりするのかなーと

    あともう一つ、この研究から乖離度みたいな係数が導出できたとして、別言語版の同ストーリーでも同様の作業を行って導出した係数を日本語版と比較した場合似た数値になるのかな

    後者は素人でもとんでもない作業量+難易度になるのだろうなと思うけど、二つちょっと気になった

  • 33125/06/03(火) 10:19:14

    >>32

    モモトークは外してます(普通に面倒くさいので……)

    チャットと実際の会話で言葉遣いが変わる現象はリアルでもあって、前者は「打ちことば」みたいな用語がついてたりするんですけど、顔文字をどう扱うかとかが難しいというのもあります


    翻訳と比べるのも絶対面白いんですけど、仰る通りめっちゃ作業量増えるんでね……

    あと私は日本語の文法をやってるので、英語はともかく韓国語とか中国語はマジで分からないっていう致命的な点が……

  • 34125/06/03(火) 14:54:26

    書き起こししながらシミコの絆スト読んでるんですけど、これで人気低いキャラってマジ??
    めちゃくちゃ良い子じゃん……

  • 35二次元好きの匿名さん25/06/03(火) 14:56:27

    >>34

    出番がね…でも産みの親直筆のエ駄死同人誌あるよ

  • 36125/06/03(火) 14:58:28

    おそらく誤字が4年間直されてない女


    >>35

    後で探すか〜……

  • 37二次元好きの匿名さん25/06/03(火) 14:58:33

    ちなみに英語版Wikiだと絆ストーリー・イベストが(多分ぶっこ抜きで)ほぼ全部収録されているので、英語版研究は比較的労力少なめでいけたりするよ

  • 38125/06/03(火) 15:25:32

    とりあえずアイリとシミコの書き起こしと単語ごとの切り分け終了
    簡単に比較できるところから比較していきます

  • 39125/06/03(火) 15:35:14

    〇推定の文の数
    ヒフミ:215文
    アイリ:143文
    シミコ:250文

    〇平均文長
    ヒフミ:12.92558…… →約13語
    アイリ:11.06993…… →約11語
    シミコ:13.352     →約13語

  • 40125/06/03(火) 15:49:53

    〇単語の数(記号類除く)
    ヒフミ:2209語
    アイリ:1215語
    シミコ:2636語

    〇語種の比率(和語:漢語:外来語)(単位%)(小数点2桁で四捨五入)
    ヒフミ:86.5:9.2:3.12
    アイリ:87.1:9.7:2.5
    シミコ:85.5:12.9:0.9

    シミコの漢語が多いですね。高頻度の漢語を見ると「本」「先生」「図書」「館」「時間」などがあるので、彼女の趣味の傾向でしょう。
    一方でヒフミの外来語使用がアイリと比べて僅かに多いですが、これも内訳をみると「フレンド」「キャラクター」「ウェーブ」「キャット」「バック」……と続くので、これも彼女のペロ活が反映されてるっぽいですね。

  • 41125/06/03(火) 15:57:55

    ちなみにこれは平成7年とかなり古い調査になりますが、テレビ番組の言葉と語種の比率を調査した研究の要約です。(国立国語研究所は国が設立した日本語の研究をする施設です)

    新「ことば」シリーズ15「日本語を外から眺める」 問18 | 国立国語研究所国立国語研究所(NINJAL)は,日本語学・言語学・日本語教育研究を中心とした研究機関です。研究者向けの研究資料・コーパスから,一般の方向けのイベント情報・読み物まで,さまざまなコンテンツを公開しています。www2.ninjal.ac.jp

    2枚目の表から、ゲームのストーリーに最も近いジャンルを探すなら「ストーリー系」の比率と比較するのが良いでしょう。

    これによると、和語:漢語:外来語は74:15:3.7とのことなので、ブルアカのセリフにおける言葉選びは総じて和語多めと言えるでしょう。


    ※ただし、上述の調査のテレビドラマなどにはナレーションなどセリフ以外の言葉も含まれていると予想されるので、もしかしたら先生のセリフとかナレーションを全て含めると、先行研究の結果に収束する可能性もあります。

  • 42125/06/03(火) 16:07:24

    今さらですが、今後使う用語を簡単に説明しておきます。

    ・異なり語数:少なくとも1回出てきた単語が何語あったかの数。複数回使われても重複カウントしない。
    ・延べ語数:全部の単語数。複数回出てきたらその分だけ重複カウントする。
    ・品詞:文中の役割に基づく単語の分類。今回は主に名詞、動詞、形容詞を見ます。
    ・語種:単語のルーツ。日本生まれの「和語」、古代中国由来の「漢語」、外国語由来の「外来語」の3つが基本的な分類です。

  • 43125/06/03(火) 16:18:33

    〇形容詞の使用
    3人の形容詞の使用を見ていきましょう。

    ヒフミの使用した形容詞の上位10語を見ると次の通り。括弧内は使用回数です。
    良い(17) ない(10) 楽しい(5) そう(5)(注1) ふかふか(5) みたい(4) よう(4)(注2) 早い(3) 恥ずかしい(3) 大丈夫(3)

    注1:「柔らかそう」「とろけそう」などの「そう」
    注2:「ここまでのようです」などの「よう」

    アイリの上位10語
    良い(11) ない(8) 大丈夫(6) 美味しい(4) 久しい(4) すごい(4) 忙しい(3) 嬉しい(3) そう(3) 甘い(2)

    シミコの上位10語
    良い(8) そう(6) 好き(5) 大丈夫(4) よう(4) ない(4) みたい(4) 楽しい(4) すごい(4) 嬉しい(3)

  • 44125/06/03(火) 16:30:04

    ヒフミは「良い」「ない」の使用がダントツで多く、その次の「楽しい」の2倍の使用回数なのが特徴的ですね。
    「大丈夫」は3人とも上位10語には入っていますが、アイリとシミコではそれぞれ3位と4位にあるのに対して、ヒフミは10位です。
    文脈を見てもアイリとシミコは自身のお願いに応えてくれた先生に対して「ご都合大丈夫でしたか?」と尋ねたり「体調は大丈夫ですか?」と気遣ったりするセリフが何度か見られました。
    一方で、ヒフミの絆ストで「大丈夫」が使用された文脈を見ると
    ・(転びそうになって)「だ、大丈夫です」
    ・(散歩の行先で)「どこでも大丈夫です」
    ・(お出かけの行先で心配されて)「大丈夫です!」
    の3回でした。
    つまり、一度も相手を気遣う文脈で使っておらず、自分が心配されたときの返答として使用しています。
    もちろん、このことからヒフミを何か非難したりするようなことはできませんが、言語使用の観点からはこの点が指摘できます。

  • 45125/06/03(火) 16:37:33

    ヒフミに関しては異なり語数が43語とかなり多かったのも特徴です。
    アイリは24語、シミコは30語でした。
    そのうち、1回しか使用されなかった語の数はヒフミ23語、アイリ13語、シミコ14語でした。

    1回しか使わなかった語を見ると、「好き」「大切」「素晴らしい」などの評価形容詞、「多い」「長い」「小さい」「重い」などの形状を表すような語がかなり含まれています。
    アイリではあまりカテゴリで括れるほどの傾向は見られず、シミコは「遅い」「悪い」「広い」「よろしい」など、いわゆる形容詞が多く、形容動詞は比較的少ない結果が得られました。

  • 46125/06/03(火) 16:38:53

    あとは動詞と名詞を見る予定ですが、疲れたのでそれは後ほど……

  • 47二次元好きの匿名さん25/06/03(火) 18:00:26

    形容詞と形容動詞でも違いとかあるのだろうか。

  • 48二次元好きの匿名さん25/06/03(火) 18:12:32

    和語の量は固有名詞やストーリー用語を使わないのが影響してそう
    あとローカライズも平易な表現に言い換えてる傾向があるしな

  • 49125/06/03(火) 18:16:37

    >>47

    あ~~どうなんでしょうね

    余裕があったら見てみますわ


    >>48

    なるほど、確かに固有名詞は本当にヒフミのモモフレンズ関連しかなかったような気がしますね

    全員かなりふんわりした雰囲気の敬語キャラなんで、そこの雰囲気を出すために漢語が減ったりしてそうです

    ティーパーティ3人の比較とかしたら語種比率が面白いことになりそう

  • 50125/06/03(火) 19:33:43

    〇動詞
    ・ヒフミ
    異なり語数:95
    延べ語数:300
    上位10語
    する56 見る18 ある15 いる15 しまう12 くださる11 なる10 言う10 思う9 できる8
    一回のみ使用:63

    ・アイリ
    異なり語数:42
    延べ語数:142
    上位10語
    する24 言う9 思う9 ある8 いる8 食べる7 しまう7 来る6 なる4 買う4
    一回のみ使用:16

    ・シミコ
    異なり語数:112
    延べ語数:400
    上位10語
    する61 言う37 いる29 ある17 くださる15 しまう15 来る12 思う9 置く8 いただく7
    一回のみ使用:64語

    シミコの動詞使用率高くね??

  • 51125/06/03(火) 19:52:52

    使用頻度が高い動詞は全員そこまで変わりないですね。

    ヒフミは使う動詞は多くて1回だけのものも多い。
    シミコは動詞使用がすごく多く、複数回使う動詞もまあまあある。
    アイリは10回以上使った動詞が「する」だけである。

    あたりがパッと言える特徴ですかね

  • 52125/06/03(火) 20:05:22

    特徴的な単語を探すとすれば、
    ヒフミはどれになるんだろう……(画像)

    アイリだと「食べる」が上位に食い込んでることや、「味わう」が1回だけ使用されていることが特徴ですかね

    シミコは「しまう」「置く」「読む」「探し出す」「貸し出す」みたいな図書館業務に関わる語が非常に目立ちますね

  • 53125/06/03(火) 20:15:47

    動詞は話題に左右されにくいのであまり特徴は出なさそうですね。

    〇名詞
    ・ヒフミ
    異なり語数:202語
    延べ語数:410語
    上位10語:先生32 友達14 事13 ぬいぐるみ8 モモフレンズ7 話7 時7 ウェーブキャット6 ところ6 キャラクター6

    ・アイリ
    異なり語数:98語
    延べ語数:202語
    上位10語:先生26 事11 時7 仕事5 本当5 スイート5(※) カフェ4 新作4 気4 味4
    ※「スイーツ」ではツールに登録されておらず、「スイート」の変形として扱われている。

    ・シミコ
    異なり語数:225語
    延べ語数:449語
    上位10語:本36 先生29 事20 図書15 物11 時間11 司書10 本当7 一7 今6

  • 54125/06/03(火) 20:24:07

    名詞は本当に個性が出ますね

    名詞の中でも外来語に着目すると、ヒフミは「フレンズ」「キャラクター」「ウェーブ/キャット」「バック」「ネック/ピロー」「ピンキー/パカ」「ショー」「ブラザー」……とまあモモフレ関連の語が続く他、1回だけの使用語に「グッズ」「ゲット」「クッション」「ダンス」みたいなオタ活や催し物関連の語が多いです。

    アイリは外来語の名詞、異なり語数で17語のうちスイーツ関連でないのが「メイン」「タイミング」「トリップ」「トラック」の4語のみでそれ以外は全部スイーツや飲食関連のワードでした。

    シミコはそもそも外来語の使用が少なく、異なり語数は18語、延べ語数は23語。複数回使用の上限は2回という具合です。(画像)

  • 55125/06/03(火) 20:37:39

    とりあえずざっと見た感じで言えることはこれくらいですね。
    本当はもっとたくさんデータを取って、然るべき統計的操作を施せばもっと正確な特徴が掴めると思うのですが、私もまだ道半ばということで、そこまで詳しい分析には踏み込めそうにありません。

    ここまでのヒフミの使用語彙の特徴を整理すると
    ・形容詞では「大事」「素敵」「大切」「素晴らしい」などのプラスの評価をする語が多い。
    ・「ふかふか」「巨大」「軽い」のような物の形や質感を表現する語も一定数見られる(ペロログッズへの評価と思われる)
    ・動詞は「する」がかなり多いが、だいたい標準的
    ・名詞は様々な語を広く浅く使う傾向にある。(異なり語数が多い)
    ・外来語名詞では、外来語でしか表せない比較的新しい概念や、モモフレンズ関連の固有名詞が多い。
    ・それ以外には和語の使用比率がシミコと比べると多い。
    という感じになります。

    やはりペロロ様関連のワードの影響が強いですね

  • 56125/06/03(火) 20:47:30

    流石にヒフミは他のキャラと比べてモモフレンズ関連の語が強いことが言えますが、その一方でアイリならスイーツ、シミコなら本にまつわる語が強いということが同時に指摘できます。

    比較対象の公平性を担保した上で単純に比較するには、もっと多くの生徒(できればランダムに抽出した生徒)のセリフデータを統合し、そこからさらにランダムにサンプリングした語群との比較が必要でしょう。
    もう少し精度を上げることは可能でしょうが、私の体力や他のタスクといった制約もあるので、ひとまずこの調査はここで区切りたいと思います。

    また暇になればこういった調査のスレを建てるかもしれませんので、もしお会いできればそのときはお付き合いくださるとうれしいです。

    それではここまでありがとうございました。
    次回は「仲正イチカの「~っす」語尾に関する一考察 ~『シャニマス』芹沢あさひ などとの比較を通じて~」(開催未定)でお会いしましょう!

    また、何か質問等あればスレの続く限り、私の答えが及ぶ限りでお答えします。

  • 57二次元好きの匿名さん25/06/03(火) 23:01:21

    お疲れ様です

    大丈夫の使い方の話が面白かった

    確かにヒフミは押せ押せムーブの印象が強いし
    アイリもシミコも控えめで、趣味に関しても共感してくれたら、気に入っていただけるなら……ってスタンスを感じる

オススメ

このスレッドは過去ログ倉庫に格納されています