FAQ - リコメンデーションコンテスト

FAQ

これまで質問のあった内容について,以下に質問と回答を記述します.




(質問1)同一人物が複数の部門に参加することは可能か?
(回答1)問題ありません


(質問2)精度部門やビジネス部門における提出内容はどのようなものか?
(回答2)精度部門は,中間時にリコメンデーション結果を最終時にはそれに加えてアルゴリズムの説明ファイルです.ビジネス部門は,中間時には,チーム間で調整の上(参加チーム数によってどのようなチームが発表するかを後日調整)中間内容の報告をします.また最終時には,内容をシートで提出後,選抜されたチームで最終報告をしていただきます.それぞれの詳細については,データ配布時に説明ファイルを添付いたします.


(質問3)keyword.csvの日本語が文字化けして読めません。
(回答3)日本語は全てUTF-8でエンコーディングしております。UTF-8を扱えるソフトウェアを利用するか、エンコーディング変換してご利用ください。Windows環境でしたら、例えば TeraPad を利用すれば閲覧・変換共に可能です。LinuxやMac OSXではUTF-8が標準となっています。


(質問4)動画のマスターファイル (movie.csv)のuname(アップロードユーザ名)項目とtitle(タイトル)項目において制御文字(コード)が含まれているようです。
(回答4)以下は、情報提供元からの回答です。

制御文字の件ですが、可能性はあります。
・基本的にスクレイピング(WEBのHTMLをとってきて解析する方法)でデータを入手しているため、
データ入手もとサイト(Youtubeなど)が制御文字をそこに入れてきた場合、制御文字が入る。
なるべくそのまま取得するようにしているので、制御文字のフィルタリングはしていない。
・取得する際に文字化けしてしまった可能性がある。(クロールプログラムのバグなど)
その場合、制御文字に変換さてしまう文字があるかも知れない。
以上の理由で、文字系のデータには制御文字が入る可能性があります。

動画マスターファイル(movie.csv)のuname(アップロードユーザ名)項目、もしくはtitle(タイトル)項目に制御文字(コード)が含まれていることを確認しているmidの一覧は こちらをご覧下さい。
注)動画マスターファイル(movie.csv)はUTF-8でエンコーディングしております。


(質問5)要項には「研究者、学生」が対象とかかれていたのですが、無職(浪人生)は参加することは可能でしょうか?
(回答5)問題ありません.ただし未成年の方の場合は,ご相談ください.


(質問6)動画のマスターファイルであるところのmovie.csvのsec(動画の長さ;秒)につきまして、負(-2)の値が入っているデータが27件あることがわかりました。これは明らかに奇妙だと思われます。
(回答6)以下は、情報提供元からの回答です。

恐らくスクレイパー(動画情報取得モジュール)のバグだと思います。
・何かを勘違いして動画の長さ以外のところをとってきている
・flvのヘッダを解析している場合があるが、対応できていない形式である
のどちらかの可能性があります。
サイト毎に作成しておりまして、バグの可能性が高いとのことでした。

(質問7)お気に入り登録の検証データの抜き取りが本当にランダムか?たとえばuid=10231の方は、お気に入り登録を93件しており、再 生履歴からは重複を除けば、再生した動画は90件です。この90件の全てがお 気に入りに登録されています。この方の本来のお気に入り登録は93+10= 103件あるわけですが、これから10件抜き取った場合に、再生履歴のない 13件の中からだけ10件を選ぶということが確率的にほとんど起こりえませ ん。その確率は計算すると約1兆分の3になります。 つまり、意識的に、再生履歴のない、お気に入りに登録しているものを抜いてい るのではないかと推測します。(再生データとお気に入りデータとはデータの収 集期間が異なりますから、再生履歴のないお気に入りデータは存在します。)
(回答7)おっしゃることは理解できます。 当初より,答えに入っているmidの履歴データは,あまりにもリコメンドが容易になるため 削除してお渡ししたのですが、その際、誤って提供しても 差し支えないデータが部分的に削除されていたようです. そのため、ご指摘のような現象が発生したものと考えます. この件に関しましては、現在、追加して提供可能な履歴データを作成しております。 今日か明日には皆様に別メールでご案内をさし上げるつもりですので、 今しばらくお待ちください。(2009.9.18回答)


(質問8)いただいたメールの文面を読む限りでは,「修正データ」として送られてきたデータに差し替えるというように読めます。ところが,修正データのファイル名は****_add となっており,以前のデータに追加せよという意図のように読めます.
(回答8) 今回配布しました履歴データは以前に配布した履歴データを包含するものですので、差し替えてご利用ください。(2009.9.20回答)


(質問9)最終結果報告は2つまで解答ファイルを提出できるとのことですが,成績が悪かったほうの解答について,精度の正確な値は教えていただけるのでしょうか?
(回答9)はい.これは両方精度をお知らせするとともに, 良い結果の方をチームの結果として競っていただきます.(2009.11.10回答)


(質問10)コンテスト終了後,正解のデータは提供していただけるのでしょうか?
(回答10)おそらく公開することになると思いますが,まだ明確に決めておりません.最終報告会までには決めたいと思いますので,それまでお待ちください.(2009.11.10回答)


(質問11)
(回答11)