2019-02-08から1日間の記事一覧

必要なWikipediaの項目から本文を抽出する

Python勉強開始から20日が経過。 『みんなのPython』を必要な箇所をひとまず終えたので、Wikipediaのデータ加工に取り組む。 手順 テキストデータが膨大なので、”doc id”(Wikipediaの項目ごとに与えられるID)と”タイトル”だけを抽出したインデックスを作る…