日本語トップ
親ページに戻る

Stochastic ranking processのおおざっぱな紹介


ランキングの順位変化の観察

Amazonの本のランキング(順位)の時間変化の模式図に戻ります. 親ページでは1年間の動きをお見せしましたが, グラフを簡単にするためにその中の1ヶ月を切り出します.
webランキングの時間変化の概念図 注意:  くり返しですが,図は単純化した模式図です. しかし,数字は(おおざっぱですが)誇張はありません. とある雑誌のレフェリーに 「5日間で20万位も落ちるなんて信じられない」と 言われて論文を落とされましたが, 本当に5日間で20万位落ちます. 権威ある雑誌とそのレフェリーが偏見に満ちたものであることがよく分かりました. と同時に,1位近くでは5日間で20万位落ち,そこからは同じ時間に数万位しか 落ちない,という現象の発見自体が偏見や常識を覆すような重要な 指摘であることを意味すると考えます.
「少しずつ売れる本の順位変化は上の図のようになっている」 という主張は,実は最終的なまとめであって, 以下に書く数学モデルの解析としつこい観察を平行して行い, 両者を結びつけて得た発見です. このような図を見れば,この変化を表すモデルを 見いだすことも難しくないと思います.

実際,手持ちのデータはとてつもなく微々たるものです. データ収集を自動化するプログラムを書く時間がとれないため, 全て手作業でデータを集めているからです. 実際,上記模式図の期間(2007年10月の1ヶ月)に 拙著「ランダムウォークとくりこみ群」のランキングのデータとして 私がとることができたのは下記左図の点だけです. (上図と重ねてみると,右図のとおり,たしかに模式図は 意外にデータを良く表していることがわかると思います.)
webランキングの時間変化の初期研究実測例 webランキングの時間変化の実測と理論の関係の概念図

上記左図のデータ点から, 最初の模式図のようなことが起きていることを見抜くのは 当たり前ではありませんでした. 実際,いまでもAmazonのランキングが本当に このような模式図になっているか,は予想と言うべきでしょう. この予想を確実に実証するには,何十万位という順位を何ヶ月か しつこくデータをとり続ける必要があります.

何十万位という順位を何ヶ月かしつこく観察を続ける人はあまりいません. もちろん少しはいます.たとえばM.Rosenthalという作家は 自身のwebで 非常に多くの本のAmazon.comでのランキングを長く追跡した観察結果を集約して います. しかし,これまでの観察記録は,出版社から直接聞くなどの別の方法 によって,ある長い期間内に売れた冊数を推定して,
冊数/期間=単位時間の売り上げ
を求めて,ランキング(順位)との関係を推測するという分析で 終わっているようです. しつこい観察と数学モデルの精密な研究を結びつけた例 は無かったようです. (そこまでしつこく精密に研究するほうが変人….)


Stochastic ranking process

親ページで動画をお見せしたのは, Amazonのランキングの数学モデル(stochastic ranking process)です.

めったに売れない(少しは売れる)本のランキングが上記最初の図のように なっている,というところに戻ります.いちばん目に付く 「何十万位からほとんどトップへの急上昇(グラフ急降下)」 (図の b と書いた4カ所のジャンプ) は,本が売れた(Amazon.co.jpに購入注文が入った)時刻です. 1冊売れたくらいでは1万位前後までしかいきませんが, 図のように「何十万位」を見る図では1万位も1位も大差ありません. (1万位と1位が図の上で大差ないという主張は, 数学モデルを発見した際の重要な単純化でした.) 以上の結論:

  1. 1冊売れるたびにランキングが1位に飛ぶ(値が激減する)
という主張は,あまりに極端なので,知らなければ 「本当か?」と思うかもしれませんが, 自分で人気のない本を注文して前後の順位の変化を観察すれば確認できます. (Amazonは1時間に1度の更新なので1位になることはありません. 実際の観測結果では1万位前後です.それでも上図のように劇的変化です.)

次に,本が売れていない間(たとえば図の a と書いた区間) のゆっくりした順位降下(グラフ上昇)は何でしょうか? 私は

  1. 注目している本以外の(ランキング数の大きい)本が売れて 1位にとぶと,ランキングが(今までの1位から順次押されて)1増える
と考えました.(これでぴんときたかたは次の段落を飛ばしてください.)


本が売れていない間のランキング下降は 「売れないまま時間がたつので,本の人気(=本屋への貢献度)が下がる」 という意味だという説明があるようで, II のように書くと,わかりにくいようです. わかりにくいならば,ためしに次のように考えてください. ランキング(順位)は相対評価だから, その時間変化は2通りの見方があります.

こうして,I と II はどちらもランキングの趣旨と合うことが分かります. (この,2通りのもののみかたに気づくことが この数学モデルに確信を持つための第2の発見でした.)


もう1点,定量的に計算できるように次の単純な確率的な定義を入れます.

  1. 本の総数を N タイトルとするとき, ランキングは 1 から N までの数値であり,Nタイトルの本の間で重複はない. また,ランキングが飛ぶ時刻(本が売れる時刻)はランダムであり, 本 i (題名を i=1,2,…,N とします)の ジャンプの平均頻度(単位時間当たりの売り上げの期待値) wi は本ごとに決まっている(本によって異なっていても差し支えない).
以上の3条件で定義される確率過程(粒子系), すなわち,ランダムな時間変化をするランキングのモデル,を stochastic ranking process と名付けました.

数学的な詳細に興味があるかたは こちらにお進みください


親ページに戻る