- 「平手友梨奈 分析」はじめに
- 「平手友梨奈 分析」データソースの取得
- 「平手友梨奈 分析」形態素解析
- 「平手友梨奈 分析」特徴量計算
- 「平手友梨奈 分析」結果からの考察
- 「平手友梨奈 分析」【おまけ】Twitter分析
- 「平手友梨奈 分析」まとめ
「平手友梨奈 分析」はじめに
皆さんこんにちは、こんばんは。
techblogchan( @techblogchan )です。
他のアイドルとは一線を介した独特な雰囲気や楽曲から絶大な人気を誇る欅坂46の不動のセンターである平手友梨奈さん。
彼女の欅坂46というグループを体現しているかのような逸脱した表現力は度々ネットをざわつかせていると思います。
代表的なものは 2017FNS歌謡祭 第一夜 で平井堅さんとコラボして披露された「ノンフィクション」の創作ダンスですね。
こちらです!
今回はこのように独特の世界観を持つ平手友梨奈さんにメスを入れて、彼女はなにをどう考え、感じるのかを分析をしたので共有したいと思います!
作業の全体像
- データソースの取得
- 形態素解析
- 特徴量計算
今回の分析での、データソースは平手友梨奈さん自身の言葉で綴られているブログを使用しようと思います。*1
また、この記事は平手友梨奈さんに対する分析と考察がメインなのでコードの掲載や解説は省略します。
後日、TFIDF計算をPythonで行う記事も紹介しようと思います。
それでは始めていきましょう〜
「結果だけ教えて!」って方はこちらから結果に飛べます。
【このシリーズの分析第2弾】
*****
「平手友梨奈 分析」データソースの取得
単調なスクレイピング技術の話になってしまうので今回は省略します。
意外と簡単にできるから興味がある方は調べてみてね!
*****
「平手友梨奈 分析」形態素解析
まずは文から単語を抽出する処理である形態素解析を行います。
文法などの注釈のない自然言語のテキストデータから、解析対象の言語のルールや辞書に基づき形態素(言葉としての意味を持つ最小の単位)に分解する作業のこと
形態素解析を行うにあたって使用する形態素解析器は使用するプログラミング言語などにより多岐にわたるのですが、今回はPythonで処理を行う際にデファクトスタンダードである「MeCab」を使用して解析を行いたいと思います。*2
つまりこの工程で、文から単語(正確には形態素だが、直感的なのでここからは文を分解した最小単位を単語と呼ぶ)に分解してあげたということです!
*****
「平手友梨奈 分析」特徴量計算
さて、先の工程で文から単語に分解することができたので、次はそれぞれの単語の特徴量を計算していこうと思います。
特徴量を計算する目的
『ある単語がその文章郡を象徴する度合いを計算することで数字による定量的な見方ができるようになるから』
もっと噛み砕いて言うと
『ある単語がその文章郡全体をどのくらい表しているかを数値化してランキングにするため』
特徴量計算には様々手法があり、データの種類やそのデータのドメイン情報によってどの手法が優れているかは異なるため、通例複数の手法を試します。
今回使用した特徴量の計算方法は以下の2つです。
- TFIDF
- LR
TFIDFを用いる特徴量計算は比較的理解しやすいので、少し丁寧にどのように計算しているか書きますが、LRに関しての説明は記事が冗長になってしまうためここでの手法解説はしません。
気になる方は「自然言語処理 LR」などで調べてみてください。
TFIDF
TFIDFは特徴量計算において最も頻繁に使用される基本的な手法です。
TFIDFの結果だけ見る方はこちら
計算のメカニズムは至ってシンプル。
\[TF(Term Frequency) \times IDF(Inverce Document Frequency)\]
TFとIDFの掛け算から算出されます。
それではTFとIDFのそれぞれの説明を致します。
【TFとは】
\[TF = \frac{文書Aにおける単語Bの出現回数}{文書Aの全単語数}\]
TFとはTerm Frequencyのことで、その名の通り単語の出現頻度のことです。
「各文書においてどのくらいその単語が出現したか」
を表しています。
とある1つの文書内において、その単語がどのくらい文書自体を象徴し得ているかを表しているということだね!
TF値が特徴量計算に用いられることは直感的にも理解しやすいと思います!
【IDFとは】
\[IDF= log \frac{全文書数}{単語Bを含む文書数}\]
IDFとはInverce Document Frequencyのことで、該当単語が存在する文書の出現頻度の逆数です。
「全文書の中でどのくらいその単語が含まれている文書が出現したか」
を表しています。
またlogはIDF値が0になることを防ぐ目的で使用しています。(1を足すIDF値の計算方法も存在しています。)
この数値が高ければ高いほど、滅多に出現しない「レア」な単語で、逆に低ければ低いほどその文書群の中では普遍的な単語となってるんだね!
ではなぜIDF値をTF値に掛け合わせているのでしょうか?
その答えは
「単にその言語での使用頻度の高い言葉を淘汰することができるから」
です。
例えば日本語でいうところの
「て」「を」「に」「は」のような助詞
「あれ」「それ」「これ」のような指示語
といったものはどんな文書にも普遍的に入っています。
もし仮にTF値のみで特徴度ランキングを作成するとなると、これら「普遍的な単語」は確実に上位に食い込んできてしまいます。
それを阻止するためにIDF値をかけ合わせているのです!
IDF値を用いて普遍的な単語を排除するってことだね!
【結果】
全ての単語を紹介したら果てしないのでトップ10を紹介します!
順位 | 単語 | スコア |
---|---|---|
1 | 笑 | 134 |
2 | あと | 79 |
3 | ω | 73 |
4 | キリトリセン | 63 |
5 | ー | 57 |
6 | ねる | 46 |
7 | オフショット | 42 |
8 | 方々 | 40 |
8 | 私達 | 40 |
10 | このへん | 35 |
LR
全く説明をしないとTFIDFとの違いが分からないと思うので、比較して説明します!
TFIDFが単語単体を見てその出現頻度からスコアを計算している手法なのに対して、このLRという手法は対象の単語とその周辺単語を見て単語同士の関係性から特徴量を計算する手法です。
【結果】
こちらも同様にトップ10を紹介します!
順位 | 単語 | スコア |
---|---|---|
1 | 笑 | 1647.8 |
2 | あと | 588.1 |
3 | ー | 463.7 |
4 | ばいばい | 247.0 |
5 | ねる | 195.9 |
6 | 私達 | 177.7 |
7 | ω | 177.2 |
8 | 欅坂46 | 116.6 |
9 | メンバー | 110.3 |
10 | ゆっかー | 99.5 |
*****
「平手友梨奈 分析」結果からの考察
今回はTFIDFとLRという2つの手法を用いて、平手友梨奈さんのブログから特徴語を抽出致しました。
LRで計算した結果を元にWord Cloud作成!
やはりどちらの手法もデータに対する前処理をあまり行っていないので、結果が粗いですね笑
内容的には全体的に「宣伝系」と「メンバーの名前」が目立つなと思いました。
「ねる」とは元欅坂46のメンバーの「長濱ねる」さんのことでしょうか?
TFIDFもLRも「全体の文書の中では何回も触れられてはいないが、ある特定の文書では何回も触れられている単語が上位に来る傾向」があるので途中加入だったりなにかしら特別な存在である「長濱ねる」さんが上位に来るのは必然なのかもしれません。*3
特徴量計算の結果との比較をするために単純な単語の出現回数のカウントを行ってみた結果がこちらです。
順位 | 単語 | 出現回数 |
---|---|---|
1 | し | 273 |
2 | さん | 177 |
3 | 私 | 175 |
4 | み | 160 |
5 | 今日 | 147 |
6 | 笑 | 140 |
7 | い | 139 |
8 | せ | 135 |
9 | ください | 131 |
10 | ん | 109 |
単語の抜き出しなのですが、意味を成していない言葉だらけですね笑
これをTFIDFやLRといった手法を用いて特徴量計算を行うだけで、ランキング上位に食い込んでくる単語たちが「キチン」とすることから、これらの手法が有効だと分かりました。
また「笑」がどちらの手法においても圧倒的に1位だったのは単純に出現回数が多かったため、IDF値の補正では足りなかったのだなということがわかりますね。
このようにどのようにデータクリーニングや前処理を行うのかの方針も見いだせるのではないかと思います。
*****
「平手友梨奈 分析」【おまけ】Twitter分析
おまけだから読み飛ばしちゃってもOK!
ここでは一般的な平手友梨奈さんのイメージを掴みたくてTwitter分析を行った結果を紹介します。
平手友梨奈さんの一般的なイメージを探るためにTwitterからキーワード「平手友梨奈」を含む(彼女の愛称である「てち」を検索してもノイズが多い+ファンの意見になってしまうため)ツイート1,000件を収集して分析してみました。
今回は一般的な平手友梨奈に対するイメージを知りたかったので、形容詞と形容動詞に限定して出現単語のカウントを行ってみました。
順位 | 単語 | 出現回数 |
---|---|---|
1 | 微笑ましい | 48 |
2 | いい | 37 |
3 | めんどくさく | 35 |
4 | ない | 34 |
5 | 可愛い | 26 |
気になるのは「めんどくさく」と「ない」ですね。
少しマイナスイメージです。
「ない」に関しては、日本語は「〇〇ない」という言い回しが多いので、形態素解析をしたら必然的に「ない」が多く抽出されてしまっているのだと思われます。
「めんどくさく」に関しては、どのような感じで1,000件のツイートで使われていたのか調べてみました。
そしたら1,000件中35件に含まれていることがわかり、全て同じツイート内容でまとめサイトの自動投稿のような感じでしたので無視して良いものだと判明しました。
(内容をここに載せるのは控えておきます)
となると、残りは「微笑ましい」「いい」「可愛い」だったのでプラスイメージの内容になります。
その有り余る表現力の高さからパフォーマンス時には「怖い」や「辛そう」といったマイナスイメージを持たれがちなイメージでしたが、Twitter上での意見はプラスに傾向してそうですね!
*****
「平手友梨奈 分析」まとめ
今回は「【平手友梨奈 分析】憑依ダンスやそのかわいさで有名な欅坂46センター平手友梨奈を自然言語処理を使って分析してみる」と題して、Pythonを用いたブログの分析結果の共有をしました。
分析し終えてこの記事を書きながらまた違う手法でも分析してみようと思ったので、このシリーズの続きを今度執筆予定です。
文字に自分の全てを乗せて発信できるわけがないので、人の考えや感情が書物(運営がチェックしているので純度100%ではないと思う)から分かり切ることはないと思うのですが、それでもその人の真の箇所の片鱗を覗くことはできるのかなと思っています。
技術の発達によって、このような分析を定量的に行えるようになったことは本当に素敵なことだと思います。
また、PythonでのTwitterのデータ収集方法といった今回使用した技術に関しては順次記事にしたいと思っているので、お楽しみに。
それでは、また別の記事で〜
techblogchan( @techblogchan )でした。
*1:なお、稀に平手友梨奈さん以外のメンバーが代筆し更新しているブログがあったためそちらは除外して計算を行った。
*3:長濱ねるさんは欅坂46に1.5期生として唯一オーディションのないタイミングで加入している。長濱ねる - Wikipedia