ブルアカセリフの語彙調査スレ

  • 1二次元好きの匿名さん24/08/18(日) 13:17:24

    期末レポートの類がようやく終わった錠前サオリだ。

    まったく……うちの教授もニヤニヤ教授のような愛らしい外見なら良かったのだがな……


    早速だが、先生は語彙調査を知っているか?

    言語学の分野で行われる調査の1つで、無数の文のデータを単語ごとに切り分け、どのような語が何回使われているかを調べる調査だ。

    それをブルアカのセリフでやってみようという試みがこのスレだ。


    ああ、最初に言っておこう、主は一応言語学の分野を専攻してはいるが、ただの学生であり、語彙調査にそこまで詳しいわけではない。どうか温かい目で見てくれ。

    https://bbs.animanch.com/storage/img/3687213/1

  • 2二次元好きの匿名さん24/08/18(日) 13:18:00

    ん、storageを抜くべき

  • 3二次元好きの匿名さん24/08/18(日) 13:18:54

    >>2

    これで大丈夫か……?

  • 4二次元好きの匿名さん24/08/18(日) 13:19:15

    >>2

    横から失礼

    storageを抜いて(略)//(略)でいいの?

  • 5124/08/18(日) 13:20:56

    ……大丈夫そうだな。
    といってもこの後サオリの画像を使う予定はそんなにないのだが……一つ知識が増えて良かった
    話を戻そう。

    今回扱うのは、度々「口調のエミュが難しい」という声を聴く生徒……浦和ハナコの絆ストーリー1話、2話のセリフだ。

    この試みで本当に口調の特徴が分かるかは正直分からない。Vanitasなまま終わるかもしれない。しかし、それでもきっとやることに意義がある……と信じたい。

  • 6124/08/18(日) 13:21:47

    さて、実際の調査手法についてだが……現状、ブルアカには網羅的にセリフを文字起こししたサイト等は存在しない。

    配信等の動画から文字を認識してくれるようなプログラムでも書けたらいいのだろうが、生憎アリウスにそんな設備はなかった……
    そこで、今回はプログラミング系の技術を持たない私が最も頼れる手法……手作業による文字起こしを実施した。

    (最初はGoogleレンズに文字起こししてもらおうと思ったのだが、セリフの度にスクショしてレンズで選んで認識……という流れがまだるっこしかったので途中から全て手打ちで文字起こしをしたぞ)

  • 7124/08/18(日) 13:23:00

    その後、国立国語研究所が提供する形態素解析ツール「Web茶まめ」を用いて形態素ごとに分解した結果をExcelに落として分析してみたいと思う。

    Web茶まめ:
    Web茶まめchamame.ninjal.ac.jp

    主は普通に「ちょっと知識のある素人」くらいの技術しか持ち合わせていないので、不備があっても許してくれ。

    あとサオリの口調を続けるのも面倒になってきたからサオリはここでお別れだ。


    では、次から実際のデータを見ていこう。

    (今からデータを見ていくので時間かかります)

  • 8二次元好きの匿名さん24/08/18(日) 13:24:09

    がんばれ

  • 9二次元好きの匿名さん24/08/18(日) 13:36:07

    ハナコのエミュが難しい理由は
    ・思考プロセスが読み取れない(トレースできない)
    ・ハナコが情報を裏付けするためやるカマ掛けが高度
    ・伏字モードのON/OFFが掴めない
    あたりが原因な気はする

  • 10二次元好きの匿名さん24/08/18(日) 13:39:30

    とりあえず10スレ

  • 11二次元好きの匿名さん24/08/18(日) 13:40:05

    スレじゃなくてレスだった

  • 12124/08/18(日) 13:42:18

    まず、大体のデータの分量としては簡易的な見積もりで「。」と「?」の個数から少なくとも102文はあると推測される。
    というのも、ブルアカは3点リーダで文が終わるときもほぼ必ず句点(。)を使用するからで、逆に句点で終わってないものはまだ後ろに続いているだけの可能性があるからである。

    形態素(意味を持つ最小単位。これを数個組み合わせて「語」が成る)の総計が1471個らしいので、平均して14個の形態素からなると言える。
    もちろん、「ふふっ。」だけで終わってるのがあったり、ダイアログ2回にわたるセリフもあるので、あくまでも「平均値」である。

  • 13124/08/18(日) 14:00:08

    手始めに動詞の使用頻度が高い順
    「する」「いる」「いう」あたりの日本語でよく見る王道の動詞がランクインしてる中に混じって「脱ぐ」が8位に入っている点に妙な納得感がありますね
    とはいえ、これは会話の話題に関わる語(噴水に入る話と平時に水着を着ている話)なので、特に口調の癖というほどではないかなあと感じます

  • 14二次元好きの匿名さん24/08/18(日) 14:04:23

    語彙調査って何の分析のためにやるん?

  • 15二次元好きの匿名さん24/08/18(日) 14:06:08

    このレスは削除されています

  • 16124/08/18(日) 14:12:02

    >>14

    本来は「このジャンルの文章に特徴的な語彙は何か」あるいは「どのジャンルの文章にも頻出する語彙は何か」というのを探すためにやる感じです。


    例えば、新聞と小説とブログでは使われる語彙とそれによって綴られる文体は違いますよね。

    あにまんでも、ブルアカカテとTCGカテと創作カテだったらきっとよく使われる語彙は違うだろうなと想像できるはずです。

    一方で、「いる」「する」「なる」みたいな語は多分それを使わずに文章を書くことは不可能だと思います。


    語彙と一言で言っても、文体を形作るために必要な語彙とか、逆に広い分野で使用される語彙とか、特定の話題でめちゃくちゃよく出る語彙とか、色々な属性のものがあるので、そういったものの具体例を知るためにやることが多い……と理解していますねー

  • 17二次元好きの匿名さん24/08/18(日) 14:13:21

    >>9

    むずい理由は単純にモードが3つくらいあるのが大きいと思う、本人が性格使い分けてるわけだし

    基本の口調は育ちのいい子供ってだけなんだけどね

  • 18二次元好きの匿名さん24/08/18(日) 14:17:41

    >>16

    なんかビッグデータ感があるわね

  • 19124/08/18(日) 14:18:41

    ……今、データと睨めっこしてるんですけど、見れば見るほど逆に特徴がない気がしてきた……

    多分難しい理由は本当に >>9>>17 みたいなことなんでしょうね……


    名詞だけで見ると「一糸」「素肌」「欲望」「裸」みたいなのがちらほらあるので、全く特徴がないわけではないんですが、どれも1回だけしか使ってないですし……

  • 20二次元好きの匿名さん24/08/18(日) 14:22:35

    単語レベルではなく、意味領域で調べることはできるのでしょうか
    ほかのキャラに比べて、服飾関連の話題が多い、とか

  • 21124/08/18(日) 14:22:43

    語彙ごとに切り分ける調査の都合上、「誰も来ない、「体育倉庫」ですよ。」(絆スト1話)みたいなカッコによる強調が意味を成さなくなるってのも分析が難しい要因ですね

    思えばハナコはずっと文脈ありきで意味深に聞こえる言葉選びをする傾向にあるので、文脈を無効化するこの調査とは相性が悪い……

  • 22124/08/18(日) 14:26:28

    >>20

    適切な解析用のツールを使えば意味カテゴリごとに分析できなくはないと思うんですが、如何せん初学者なもので知識に乏しく……

  • 23124/08/18(日) 14:38:25

    ん~、とりあえず結論としては「ハナコのエミュの難しさは特に使用語彙に理由を求められるものではなかった」になりますかね……

    まあ、アプローチが間違っていたことが分かったということも学問的には有益でしょう!(適当)

    お付き合いいただきありがとうございました!

  • 24二次元好きの匿名さん24/08/18(日) 14:40:28

    ん、逆にエミュしやすいキャラクターについても併せて考えるべき
    そのようなキャラクターは、うへ~、名前を出してないのに誰だかわかるよ~

    うわーん! テンプレが便利すぎます!
    やめなよ! テンプレに頼りすぎるのは恥ずかしいことなんだよ!
    それから、ほかのキャラの呼び方でも特徴づけられるようだね、お姉ちゃん

    かといって安直なのは駄目!死刑!

  • 25124/08/18(日) 14:42:53

    また機会があればシロコの「ん」使用率とか取ってみても面白いかもですね
    アリスも特徴的だから良い結果が取れそう……

  • 26二次元好きの匿名さん24/08/18(日) 14:45:30

    1回しか使ってない語句が多いなら難しい言葉に言い換える癖はあるんじゃね?
    まあハナコの場合難しいというか含みのある語句だけど

  • 27二次元好きの匿名さん24/08/19(月) 00:31:01

    ハナコのエミュが難しい理由
    1.そもそも語彙的には広い範囲の言葉をまんべんなく使う上に例え話や比喩表現も少なくないのでそもそもの会話の難易度が高い。
    2.驚くことに(数少ない)普通の話題自体はめちゃめちゃ女の子なので教養があってお嬢様育ちの一般女の子というキャラクター自体が難しい。
    3.ハナコはお気に入りだったり信用できると思った相手に試し行動のような形でイタズラを仕掛ける、イタズラの内容はみんなお察しの下ネタ連発。しかもその内容が古めの海外文学作品などからも引用されてたりするので求められる知識が非常にマニアック。
    4.そもそもほとんどハナコの日常的な会話を目撃できない、信用して甘える相手として認識した先生相手にすら常時試し行動を行って下ネタ祭りになるくらい人間不信を拗らせているので、どれだけ信頼できる相手でも過去の経験からくるPTSDのような遠回しな拒絶をハナコ自身がコントロールできていない、なのでプライベートな日常会話をハナコ自身が上手く出来てないのでそもそも真似しようがない。

    4つに分けて書いたけど本質的には「今のハナコはハナコ自身にも自分の会話を上手くコントロールできてない状態」であることが難しい要因になる。
    ストーリーで登場したばかりの頃は仮面を被って破滅願望に一直線な下ネタ女子としてエミュすればよかったが、エデン条約編での心境の変化や先生とのふれあい、イベントストーリー等を通してハナコ自身が自分が思ったよりも、今まで得られていなかった友達や先生と「普通に」関わって笑顔で居られる状況に慣れていない。
    心の底から笑っても問題ない友人関係や、体から力を抜いて落ち着いてもいい環境を提供してくれる大人が居るという事実を、ハナコ自身は理解はしても脳や体に染み付いた習慣は受け入れきれてない、まだハナコ自身が順応できていない反応のギャップが、ハナコではない私達プレイヤーにはどう頑張っても理解できない(多分ある程度でも理解できる人は相当強烈な子供時代を過ごしていると思う)からである。
    長文失礼。

  • 28二次元好きの匿名さん24/08/19(月) 10:03:26

    野良猫のエミュである程度はいける

  • 29二次元好きの匿名さん24/08/19(月) 11:37:01

    >>24

    ミカの「じゃんね」は1回しか言ってなかった記憶が

  • 30二次元好きの匿名さん24/08/19(月) 21:49:27

    結果が陰性だったとしても科学的には重要な結果ですよ
    ハナコは一般名詞に含みを持たせる言い回しが多い上に3つぐらいモードがあるから仮に有意なデータがあっても平均化されるだろうしね

  • 31二次元好きの匿名さん24/08/20(火) 00:16:48

    逆にハナコのエミュに語彙調査をすれば傾向が見えたりするのでは?
    ハナコのエミュが多くされてるSSやスレといったらどんなものがあるのかな?

  • 32二次元好きの匿名さん24/08/20(火) 09:42:44

    ハナコ自身の言動をエミュするのは難しいけど「どことなくハナコっぽいセリフ」を書くだけなら案外どうにかなるよ
    ですます調の女の子喋りをベースとして薄い本ワードや身体に関わる表現を♡マークで強調するとそれっぽくなる

オススメ

このスレッドは過去ログ倉庫に格納されています