初音ミクの画像がはじかれる原因に関する一つの可能性
2007-11-06 00:00
少し前、Google 画像検索で「初音ミク」の画像が表示されない、ということが話題になった。様々な説があるので、「なぜか」という問題にたいして答えようとする気はない。しかし昨日面白い例を見つけた。
私が理解している問題はこうだ。初音ミクで検索すると全く関係ない画像が表示される。そのページに飛んでみると、元々初音ミクの画像がない場合もあるが、画像が存在しているのに「わざわざ他の画像」を選択し、表示している例もある。
初音ミクの画像があるのに、表示していないページに関して言えば「クローラーの周期の問題」とは言えない。そもそもそのページがひっかかっているからだ(もちろん初音ミクの画像だけ後で追加したという可能性も残るが)
ではどうしたらこのようなことが起こるか?
Goromiシリーズの最新作、Goromi-Musicでは音楽のメタデータをキーにしてWeb検索を行い、その結果を表示している。その際問題になるのが「広告」画像だ。これがでてくると音楽のムードを破壊することおびただしい。さて問題です。どうやったらこれが取り除けるでしょう。
なんとかの一つ覚えではないが、私はこんな方法を使った。
・「これは広告」という画像と「広告じゃありません」という画像を数十枚集める。
・それぞれの画像のRGB成分のヒストグラムを作る。
・Support Vector Machineに学習させ、モデルを作る。
・新しい画像がきたらそのモデルを使って、広告画像か否かを判定させる。
きっと専門家からみたらもっとましなやり方があるのだろうが、ええい、とりあえず動けばよろしい、とシステムに組み込んだ。結果はまあまあである。自分が作ったソフトだから採点はとても甘くなる。QRコードを時々通過させてしまうのが気に入らないが、まあ見なかったことにしよう。
さて、フィルター組み込み後のGoromi-Musicを使って「ミクラシック」の曲を演奏させてみる。J.S. Bachと初音ミクの画像が交互に表示されるのを見て私は「わーいわーい」と喜ぶ。
ところが私のお手軽フィルタは初音ミクのパッケージ画像もはじいていたのだ。(もちろん「これは広告だ」画像に初音ミクの画像は含まれていない。)パッケージではない初音ミクの画像は表示していたが。
この騒ぎが起こってからというもの「画像フィルタの問題じゃないかな」と思っていたのだが、確かにそうしたことは「起こりうる」ことがわかりました。。というお話でした。もちろん世界のGoogle様が私がやったようないい加減なフィルタを使っているはずもない。しかし広告画像をはじきたい、という目的は多分存在するだろう。もちろんテキストとの位置関係も使えるだろうが、それだけでは難しいこともあるに違いない。というわけで、画像フィルタをかませていたが、何かの理由でそれが初音ミクを「広告」と判断した、というのは可能性の一つとしてはあり得るのではなかろうか。