今回はPythonでスクレイピングしたデータを.txtや.csvに出力する方法を紹介します。
スクレイピングしたデータを.txtや.csvに出力
.txtや.csvに書き出すまでを紹介していきます。
完成ソース
(例)
import requests import shutil from bs4 import BeautifulSoup url = requests.get("https://fich-labo.com/") soup = BeautifulSoup(url.content, "html.parser") file = open('/Users/username/Desktop/test.csv', 'w') file.write(soup.find("div", "archives-list simple-list").text) file.close()
・変更しなければいけない箇所は日本語で記入しています。
import requests import shutil from bs4 import BeautifulSoup 変数 = requests.get("サイトのurl") soup = BeautifulSoup(変数.content, "html.parser") file = open('/パス/ファイル名.拡張子', 'w') file.write(soup.find("要素", "要素名").text) file.close()
必要な物
・Requests
・Beautiful Soup
・Beautiful Soup
スクレイピングする上で上記のインストール物が必要になるので、下記の項目をターミナルで実行しましょう。

pip3 install requests
pip3 install beautifulsoup4
インポート
インポートすることでファイルに書き出す機能やスクレイピングの機能を読み込むことができます。
import requests import shutil from bs4 import BeautifulSoup
取得したいサイト
まずデータを取得したいサイトを設定しましょう。
変数 = requests.get("サイトのurl")
実際にサイトを読み込む
実際に変数に入ったサイトを読み込んでいます
soup = BeautifulSoup(変数.content, "html.parser")
ファイルに書き込む
・openでファイル名と保存先を指定
・writeで書き込み
・soup.findでサイトのどの部分を読み込みたいか指定
・closeで処理終了
・writeで書き込み
・soup.findでサイトのどの部分を読み込みたいか指定
・closeで処理終了
file = open('/パス/ファイル名.拡張子', 'w') file.write(soup.find("要素", "要素名").text) file.close()
もしdiv class=”memo”の中身を読み込みたい場合は
file.write(soup.find("div", "memo").text)
です。
スクレイピング禁止サイトに注意
ツイッターなどクローラーの巡回を禁止しているサイトなどはスクレイピングも禁止されています。
場合によっては法的処罰を受けることもあるので注意しましょう!
The following two tabs change content below.
Java・C#・PHP・Servlet JSP・SQL・Python
https://gotoyusuke.com/
最新記事 by YusukeGoto (全て見る)
- 【WordPress】RSSで外部のサイトから記事を取得する方法 - 2020年10月11日
- 【WordPress】関連記事一覧を表示する方法 - 2020年10月11日
- 【CSS】CSSの基本 - 2020年10月10日
コメントを残す