2019-02-01から1ヶ月間の記事一覧

引き続き、テキストを使った Python 勉強中

Python勉強開始からほぼ一ヶ月が経過。 前回に引き続き、『いちばんやさしいPythonの教本』を 進める第8章を終えて、残すは9章のみだが、webアプリケーションの章なのでスキップする。 10日間にやったこと Wikiextractor で下処理したデータから a タグでリ…

必要なWikipediaの項目から本文を抽出する

Python勉強開始から20日が経過。 『みんなのPython』を必要な箇所をひとまず終えたので、Wikipediaのデータ加工に取り組む。 手順 テキストデータが膨大なので、”doc id”(Wikipediaの項目ごとに与えられるID)と”タイトル”だけを抽出したインデックスを作る…