スクレイピングを用いた光回線のプロバイダの調査

光回線を提供しているプロバイダを調査するために、「みんなのネット回線速度」から、Python言語でBeautifulSoupによるスクレイピングにより、プロバイダ名、通信速度、通信環境等の情報を取得しました。

今回作成するアプリを次に示します。

1.スクレイピングアプリ「scraping.py」: 上記で取得したURLを用いて次に示す範囲の情報を取得しファイル化します。; 次のコマンドでスクレイピングアプリ「scraping.py」を実行します。
2.要約アプリ「summary.py」: 収集した情報を用いてプロバイダごとの登録数をカウントしてファイル化します。
次のコマンドで要約アプリ「summary.py」を実行します。
3.解析アプリ「analize.py」: 収集した情報を用いてプロバイダごとに通信環境と通信速度を取得してファイル化します。
次のコマンドで解析アプリ「analize.py」を実行します。

スクレイピングを行うURLの取得

スクレイピングする「みんなのネット回線速度」のURLを次の手順で取得します。

右側のメニューにある「通信速度レポートの検索」に「横浜市西区　光回線」を設定して検索します。

検索結果を表示させると下にスクロールさせると次のような戸建て・集合住宅の選択が可能となるので、集合住宅を選択します。

表示された検索結果のURL「https://minsoku.net/speeds/optical/prefectures/14/areas/141038/house_types/condominium?page=2」を取得します。

スクレイピングアプリ「scraping.py」の作成

取得したURLからスクレイピングした通信情報をスクレイピングファイル「西-scraping」に保存します。対象とするページをChrome デベロッパーツールのElementsパネルで表すると次のようになっており、BeautifulSoupを使って、「’p’, class_=’text’)」をパラメータにしてfind_allメソッドで切り出します。

import urllib.request
import sys
from bs4 import BeautifulSoup

area = "西-"
f = open(area + "scraping", mode='w')

for page in range(160):
    url = "https://minsoku.net/speeds/optical/prefectures/14/areas/141038/house_types/condominium?page=" + str(page+1) #西区
    headers = {
        "User-Agent": "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:47.0) Gecko/20100101 Firefox/47.0"
    }
    request = urllib.request.Request(url, headers=headers)
    response = urllib.request.urlopen(request)
    
    soup = BeautifulSoup(response, 'html.parser')
    for tag in soup.find_all('p', class_='text'):
        if '※' in tag.text: break
        if '平均Ping値' in tag.text: continue
        print(tag.text)
        f.write(tag.text + "\n")

f.close()

14行目でurlopenメソッドを実行すると、次のエラーメッセージが表示される場合があります。
urllib.error.HTTPError: HTTP Error 403: Forbidden
これは、http 403. 閲覧権限がないためです。11行目のようにRequestでユーザーエージェントをfirefoxに偽造することで回避できます。

要約アプリ「summary.py」の作成

スクレイピングファイル「西-scraping」を用いて、要約した結果を要約ファイル「西-summary」に保存します。class「Provider」はプロバイダ名と登録数を変数で持ち、スクレイピングファイル「西-scraping」を用いて、すでに登録されていれば登録数をカウントアップし、登録されていなければプロバイダ名を登録します。作成したプロバイダ名と登録数はリスト「Provider_info」に保存され、登録終了後に要約ファイル「西-summary」に保存します。

#!/usr/bin/python
# coding: UTF-8
import re

class Provider:
    def __init__(self, name):
        self.name = name
        self.count = 1


area = "西-"
fw = open(area + "summary", mode='w')

f = open(area + 'scraping')
lines2 = f.readlines()  # 1行毎にファイル終端まで全て読む(改行文字も含まれる)
f.close()
Provider_info = []
for line in lines2:
    if 'プロバイダ:' in line:
        m = re.search('プロバイダ:(.*)住宅の', line)
        provider = m.group(1)
        findflg = False
        for member in Provider_info:
            if provider == member.name:
                member.count += 1
                findflg = True
                break
        if not findflg:
            Provider_info.append(Provider(provider))

for member in Provider_info:
    print("{} count:{}".format(member.name, member.count))
    fw.write("{} count:{}\n".format(member.name, member.count))

fw.close()

解析アプリ「analize.py」の作成

スクレイピングファイル「西-scraping」を用いて、解析した結果を解析ファイル「西-GMOとくとくBB」に保存します。解析では利用者の通信環境と実際の通信速度の２種類の情報を組み合わせて一行に表示します。

22-36行目で通信環境、39-56行目で通信速度の処理を行います。
２種類の情報がそろっているかをチェック、は、23行目と40行目で行い、エラーを検出した場合は処理を終了します。エラーを検出した場合は、スクレイピングファイル「西-scraping」をエディタ等で編集します。
55行目でファイル化したいプロバイダの名称をチェックします。

#!/usr/bin/python
# coding: UTF-8
import re

area = "西-"

fw = open(area + "GMOとくとくBB", mode='w')

f = open(area + 'scraping' )
lines2 = f.readlines()  # 1行毎にファイル終端まで全て読む(改行文字も含まれる)
f.close()
# lines2: リスト。要素は1行の文字列データ
num = 0
data1 = 0
data2 = 0

provider = ""
os = ""

for line in lines2:
    num += 1
    if 'プロバイダ:' in line:
        if num != (data1 + 1):
            print("プロバイダデータエラー！\n")
            print(str(num) + " " + line + "\n"),
            break
        data1 = num + 1
        m = re.search('プロバイダ:(.*)住宅の', line)
        provider = m.group(1)
        m = re.search('ネット接続方法: (.*)ブラ', line)
        os = m.group(1)
        os = re.sub('端末の種類:', "", os)
        os = re.sub('OS名: ', "", os)
        os = re.sub('デスクトップ', "", os)
        os = re.sub('\(スマートフォン\)', "", os)
        os = re.sub('\(Wifi\)', "", os)


    if 'ダウンロード速度:' in line:
        if num != (data2 + 2):
            print("ダウンロード速度エラー！\n")
            print(str(num) + " " + line + "\n"),
            break
        data2 = num
        m = re.search('ダウンロード速度:(.*)【IPv6接続】', line)
        line = re.sub('ジッター値:.*?ms　', "", line)
        line = re.sub('Ping値:.*?ms　', "", line)
        line = re.sub('ジッター値:.*?ms　', "", line)
        line = re.sub('Ping値:.*?ms　', "", line)
        line = re.sub('接続', "", line)
        line = re.sub('ダウンロード速度', "down", line)
        line = re.sub('アップロード速度', "up", line)

        print(str(data1 - 1) + " " + provider + line)
        if 'GMOとくとくBB' in provider:
            fw.write(str(data1 - 1) + " " + provider + " " + os + line)

print
fw.close()