pythonでウィジェット内のテキストを取得【Beautiful Soup4】

 

人工知能で遊ぶために、pythonの勉強をしています。調べたところによると、いきなり人工知能についてのコードを書き始めるのは愚策みたいです。

なので、「簡単なこと」かつ「このブログの為になりそうなこと」という条件をつけて、pythonでなにかしらしようと思います。

Twitterで「pythonは何でもできる」的な発言を何度か見たので、思いついたことを全てやっていこうと思います。

ただ、プログラム経験は皆無です。「発想がぶっとんでる」or「もっと簡単にできる」ことがあるかもしれません。TwitterでDMか弊ブログのお問い合わせを通じて、アドバイス頂けると嬉しいです。

今回は、前回の続きです。少し進展がありました。

僕の現状

前の記事と同じです。

progateでpythonのコースを少しだけ。pythonⅠからpythonⅣまでを2周ほど。pythonⅤは、まだやっていない。

HTMLは、ググりながら書き換えたり付け加えたりができる程度。

やること

弊ブログでは、記事の横に「今日の人気記事」を表示しています。その日に一番見られた記事です。

この「今日の人気記事」の文字だけを抜き取ります。言いかえると、その日に一番見られた記事のタイトルを取得することです。

Requests&Beautiful Soup4

Requests&Beautiful Soup4についての基礎知識は、前回の記事でOKです。

追加の知識

PythonでWebページ情報を取得してみる

上の記事を参考にしました。

Beautiful Soup4について、広く浅く解説されていました。基礎的なことを知っている上で読むには最適だと感じました。

コード

import requests, bs4

get_url_info = requests.get('https://teihenai.com/2018/07/31/takapon/')
bs4Obj = bs4.BeautifulSoup(get_url_info.text, 'lxml')
print(bs4Obj.select('.wpp-list')[0].get_text())

 

僕にはまだ、コードを解説する技術はありません。そのまま書いておきます。

実行すると、問題なく動きましたよ。

おわりに

5行くらいのコードですが、なんやかんや4時間くらい格闘しました。おおげさに言うと、5万回くらいエラーでました…

URLも取得することを目標としていたのですが無理でした。どうしても、AttributeERRORが出てしまいます。今回はURLについては、泣く泣く断念しました。

読みにくい記事ですみませんでした。プログラム系の記事も読みやすくなるように工夫していきます。

おーわり