タブレットの価格分析をしてみよう

こんにちは、マーケットエンタープライズでインターンをしています、伊藤です。今回はスペックデータを用いて、タブレットの価格を分析してみます。

データについて

マーケットエンタープライズは中古商品を買い取ることが多いので、最初は中古価格の分析をしようと思ったのですが、良いデータが見つからなかったため今回は新品価格について分析します。
いくつかのサイトなどを参考に、448の商品のデータを利用します。正確なデータではないものもありますが、おおまかな特徴を捉えるのにはそれでも十分意味があるでしょう。価格は10月中旬のものです。

分析手法について

今回の分析では一番基本的な手法である重回帰分析を用います。被説明変数(ここではprice)と説明変数(ここではスペック)が線形関係にあると仮定し、その関係を係数で表現する方法です。詳しくはwikipediaなどを参照。
https://ja.wikipedia.org/wiki/%E9%87%8D%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90)
パッケージとしてはstatsmodelsを利用します。
とりあえず必要なものを読み込んでおきましょう!

データを使える形に成型

分析方法が複雑でない限り、この作業が一番面倒で、時間がかかりますね。
抜けのないデータソースがなかったためそれなりに大変でしたが、面白くない部分なので分析のところまで飛ばしましょう。

データの注意書き

・変数名は以下の通りです。
price : 商品価格, shop : 取り扱い店舗数, rate : 評価の平均値, vote : 評価の総数, size : 画面の大きさ,
panel : 解像度, SIM : SIMフリーダミー, android : Androidダミー, windows : windowsダミー,
apple : appleダミー, RAM : RAMサイズ, ROM : ROMサイズ, registration : 発売日トレンド
・解像度は縦横の画素数の積を指標とします。
・SIMフリーダミーを用います。キャリアやWIFIなど他にもいくつか種類がありますがここでは無視します。
・OSダミーはAndroid、Windows、iOSの3種類用意しました。
・発売日はかなり不完全なデータですが、2016年10月を1とし、一ヶ月遡るごとに1増えていきます。つまり2016年9月なら2、2015年10月なら13となります。最も古いタブレットがいつ発売されたのかわからなかったので、普通のトレンドとは逆にしました。

item_name price shop rate vote size panel SIM android wins apple RAM ROM regi
iPad mini2
Wi-Fi 32GB
30000 35 4.62 65 7.9 3145728 0 0 0 1 1 32 37
iPad mini2
Wi-Fi 16GB
26700 31 4.39 84 7.9 3145728 0 0 0 1 1 16 37
iPad mini3
Wi-Fi 128GB
42151 23 4.29 7 7.9 3145728 0 0 0 1 1 128 25
iPad Air
Wi-Fi128GB
44499 20 4.45 86 9.7 3145728 0 0 0 1 1 128 37
iPad Air
Wi-Fi16GB
31720 19 4.64 3 9.7 3145728 0 0 0 1 1 16 25

基本統計など

ここからはデータの特徴をいくつかの側面から見てみます。まずは基本統計から。

price shop rate vote size panel SIM and win apple RAM ROM  regi
count 448 448 448  448 448    448 448 448 448 448 448  448 448
mean 78897.30 10.36 2.27 9.36 10.00 2206195 0.10 0.25 0.58 0.15 3.25 96.78 15.36
std 70299.72 12.95 2.07 24.17 2.13 1329286 0.29 0.43 0.49 0.36 2.62 111.83 12.80
min 5900.00 1.00 0.00 0.00 5.00 384000 0.00 0.00 0.00 0.00 1.00 2.00 1.00
25% 28344.25 1.00 0.00 0.00 8.00 1024000 0.00 0.00 0.00 0.00 2.00 32.00 5.00
50% 59800.00 4.00 3.01 1.00 10.10 2073600 0.00 0.00 1.00 0.00 2.00 64.00 11.50
75% 107784.00 18.00 4.16 7.00 12.00 3110400 0.00 0.00 1.00 0.00 4.00 128.00 22.25
max 578000.00 57.00 5.00 285.00 20.00 9830400 1.00 1.00 1.00 1.00 16.00 1000.00 72.00
 平均価格が8万円に近いのは、貧乏学生である僕にとっては高すぎるな〜という印象です。SurfaceやiPad proなどが平均を押しあげているんでしょうか。最高値は57万円ですね。ちなみに僕は最近HuaweiのMediaPad T2 7.0を買いました。

SIMの平均は約0.096です。SIMは1か0しかとらないことから、SIMフリータブレットの割合は10%くらいということがわかります。同じようにandroidは約25%、windowsは58%、appleは15%です。意外にもwindowsが多いですね。これは2in1ノートが含まれているからだと思われます。

次は価格と登録日についてグラフで見てみます。

regi_price
上のグラフを見る感じ、価格と発売日の線形関係はあまりないように思えます。価格の最大値が飛び抜けていて、外れ値として処理した方が良い気もします。次は価格と画面サイズのグラフです。

size_price

 こちらは緩やかに正の相関がありそうです。そしてサイズ20インチのタブレットって何ですか???

分析の前にそれぞれの変数が相関しているかどうかを調べます。相関が大きい変数はあまり多くなく、size-price:0.710、RAM-price:0.815、ROM-RAM:0.796の4項目が0.7を超えていました。
ここからsizeとRAMが価格(price)を左右しそうだと予測できます。

price shop rate vote size panel SIM and win apple RAM ROM regi
price 1.000 -0.137 -0.396 -0.227 0.710 0.609 -0.132 -0.402 0.431 -0.068 0.815 0.677 -0.216
shop -0.137 1.000 0.196 0.086 0.002 0.098 0.114 0.169 -0.159 0.038 0.010 0.013 -0.154
rate -0.396 0.196 1.000 0.364 -0.294 0.083 0.173 0.194 -0.468 0.386 -0.296 -0.248 0.411
vote -0.227 0.086 0.364 1.000 -0.259 -0.052 0.075 0.192 -0.323 0.198 -0.206 -0.187 0.449
size 0.710 0.002 -0.294 -0.259 1.000 0.577 -0.148 -0.432 0.516 -0.115 0.681 0.568 -0.239
panel 0.609 0.098 0.083 -0.052 0.577 1.000 -0.043 -0.294 0.028 0.356 0.609 0.497 -0.068
SIM -0.132 0.114 0.173 0.075 -0.148 -0.043 1.000 0.217 -0.218 0.055 -0.139 -0.124 -0.040
android -0.402 0.169 0.194 0.192 -0.432 -0.294 0.217 1.000 -0.681 -0.241 -0.330 -0.403 0.073
windows 0.431 -0.159 -0.468 -0.323 0.516 0.028 -0.218 -0.681 1.000 -0.498 0.478 0.410 -0.274
apple -0.068 0.038 0.386 0.198 -0.115 0.356 0.055 -0.241 -0.498 1.000 -0.222 -0.041 0.229
RAM 0.815 0.010 -0.296 -0.206 0.681 0.609 -0.139 -0.330 0.478 -0.222 1.000 0.796 -0.232
ROM 0.677 0.013 -0.248 -0.187 0.568 0.497 -0.124 -0.403 0.410 -0.041 0.796 1.000 -0.174
registration -0.216 -0.154 0.411 0.449 -0.239 -0.068 -0.040 0.073 -0.274 0.229 -0.232 -0.174 1.000

やっと到達、回帰分析

準備が整ったので、重回帰にかけてみます。

OLS Regression Results
Dep. Variable: price R-squared: 0.774
Model: OLS Adj. R-squared: 0.768
Method: Least Squares F-statistic: 124.0
Date: Thu, 10 Nov 2016 Prob(F): 4.79e-132
Time: 05:29:03 Log-Likelihood: -5302.1
Observations: 448 AIC: 1.063e+04
Df Residuals: 435 BIC: 1.068e+04
Df Model: 12
Covariance Type: nonrobust
coef std err t P>|t| [95.0% Conf. Int.]
const -2.836e+04 1.5e+04 -1.895 0.059 -5.78e+04 1056.497
shop -650.3379 134.107 -4.849 0.000 -913.916 -386.760
rate -7262.3248 1009.796 -7.192 0.000 -9247.011 -5277.639
vote 24.5794 78.086 0.315 0.753 -128.894 178.053
size 6880.7189 1226.185 5.611 0.000 4470.735 9290.703
panel 0.0076 0.002 3.407 0.001 0.003 0.012
SIM 6746.4080 5691.502 1.185 0.237 -4439.854 1.79e+04
android -9216.2323 1.27e+04 -0.725 0.469 -3.42e+04 1.58e+04
windows -8651.4267 1.3e+04 -0.666 0.506 -3.42e+04 1.69e+04
apple 1.259e+04 1.35e+04 0.934 0.351 -1.39e+04 3.91e+04
RAM 1.465e+04 1416.781 10.341 0.000 1.19e+04 1.74e+04
ROM 8.5480 25.120 0.340 0.734 -40.823 57.919
registration 67.6895 156.737 0.432 0.666 -240.367 375.746
Omnibus: 202.474 Durbin-Watson: 1.455
Prob(Omnibus): 0.000 Jarque-Bera (JB): 1272.816
Skew: 1.853 Prob(JB): 4.09e-277
Kurtosis: 10.380 Cond. No. 3.97e+07

R-squaredが0.774なので、このモデルでは価格の77%を説明していると言えます。またF-statisticが124であることから、このモデルが妥当なものであることがわかります。

次に説明変数を見てみます。ちょっと冗長ですが、ずらずらと書いていきますね。有意というのはここでは、統計的に0でない可能性が高い、という意味です。

shop:係数はマイナスで有意。ショップが多いほど価格競争があり値段が下がるということでしょうか。
rate:係数はマイナスで有意。安い商品ほど評価が高いことの裏返し?
size, panel:係数はプラスで有意。パネルサイズが大きいほど、解像度が高いほど価格は高くなるようです。
SIM:係数はプラスだが有意ではない。SIMありだと5000円ほど高いですが、統計的には有意ではありませんでした。意外です。
RAM:係数はプラスで有意。RAM1GBあたり15000円です。今回はCPUの性能を(数値化が面倒なので)説明変数に入れていないため、それを加味すればもう少し影響力は下がるような気もします。
registration:これも有意ではないです。発売日は意外と関係ないのかもしれません。または昔のモデルは徐々に値下げしていき、最新モデルと似たような価格に調整されているという可能性もありそうです。

p値の高い(統計的に意味があると言いづらい)ものの中からvote、android、windows、registration、RAMと相関が高かったROMを説明変数から除いてみます。

OLS Regression Results
Dep. Variable: price R-squared: 0.773
Model: OLS Adj. R-squared: 0.770
Method: Least Squares F-statistic: 214.3
Date: Thu, 10 Nov 2016 Prob(F): 2.01e-137
Time: 02:16:51 Log-Likelihood: -5302.7
Observations: 448 AIC: 1.062e+04
Df Residuals: 440 BIC: 1.065e+04
Df Model: 7
Covariance Type: nonrobust
coef std err t P>|t| [95.0% Conf. Int.]
const -3.478e+04 9829.515 -3.538 0.000 -5.41e+04 -1.55e+04
shop -670.5555 126.995 -5.280 0.000 -920.147 -420.964
rate -7005.3480 919.257 -7.621 0.000 -8812.028 -5198.668
size 6741.9636 1114.194 6.051 0.000 4552.161 8931.766
panel 0.0075 0.002 3.483 0.001 0.003 0.012
SIM 6010.5668 5556.255 1.082 0.280 -4909.531 1.69e+04
apple 2.216e+04 6097.908 3.635 0.000 1.02e+04 3.41e+04
RAM 1.5e+04 1042.439 14.392 0.000 1.3e+04 1.71e+04
Omnibus: 201.007 Durbin-Watson: 1.458
Prob(Omnibus): 0.000 Jarque-Bera (JB): 1256.992
Skew: 1.838 Prob(JB): 1.12e-273
Kurtosis: 10.336 Cond. No. 1.61e+07

説明変数が半分くらいに減りましたが、R-squaredは0.001減っただけですね。Adj R-squaredは高くなっているので、説明変数の数の割には良いモデルであることがわかります。

最初のモデルとの一番の違いはappleの係数がプラスで有意となっている点ですね。apple製品は他の製品と比べて22000円ほど高いです。それだけapple製品のブランド力が高く、魅力的だとも言えますね。

まとめ

今回は初歩的な手法である重回帰を使って、タブレット端末の価格周りの分析をしました。このモデルのままでは単純すぎて実用的なレベルではないのですが、それでも読み取れることは結構あったりします。
より高度な手法を使ったり、より多くの情報を集めて分析すれば、正確な価格予想もできるようになると思います。(今回のモデルでもやってみましたが散々な出来でした。)
それでは今日はこのへんで。