pythonでスクレイピング【Beautiful Soup4】

 

人工知能を使って遊びたいので、pythonの勉強を始めました。この記事を書いている時点で、1週間ほど経過しました。すでに何度か挫折しそうになっている状況です。

人工知能に学習させるデータを取得するためには、スクレイピングをする必要があるようです。他のサイト様の力を借りて、ざっくりと備忘録を書きます。

途中で出てきた分からない単語も、その都度ピックアップ。

完全に自分用です。

僕の現状

progateでpythonのコースを少しだけ。pythonⅠからpythonⅣまでを2周ほど。pythonⅤは、まだやっていない。

HTMLは、ググりながら書き換えたり付け加えたりができる程度。

スクレイピング BeautifulSoup

Python Boot Camp Text スクレイピング

Beautiful Soup4を使う。環境構築から、基本的な使い方を勉強できる。

コードを細かく分けて解説してくれているのが嬉しい。

Requests

Requests の使い方 (Python Library)

pythonのライブラリである、Requestsについて。情報が少なかったので別サイトを。

メソッド

Pythonの関数とメソッドの違いについて

なんか聞いたことあるような「メソッド」という言葉。少しでも分からない単語は、すぐに調べる。

div

p要素、div要素、span要素の違い

これは、pythonではなくHTMLの話。知ってるようで知らないことだったので。

もう少し基礎的な説明

Pythonでスクレイピングをする最初の一歩、Webページを丸ごと取得する方法

ひとつ前のリンクでは、完成しているコードを解説する流れでした。

こちらのリンクでは、スクレイピングをするために必要な基礎知識を順番に解説してくれています。しかも、文章がやさいいです。

連載形式になっており、内容も盛りだくさんです。

できるようになったこと

デベロッパーツールを見て、必要なclass属性を持つ要素を取得する。getTextメソッドを使って、テキストのみを取得。そして、txtファイルとして保存する。id属性でもOK。

次は…

試しに競馬のレースデータを取得してみた。が、当然、表のようにはならず、数字の羅列がファイルに書き込まれただけになった。

ただの暗号ができあがった…

このあとで機械学習する際に、使いやすいデータの形にしておく方法を探す。

Pandasとやらも使えるのかも!scrapyも調べたい。