import requests import re import pandas as pd #请求网页 headers = { 'User-Agent': '5498'} response = requests.get('https://tophub.today/n/Jb0vmloB1G',headers=headers) html=response.text #print(html) #解析网页与抓取信息 urls = re.findall('<a href=https://www.cnblogs.com/Zlj258258/p/.*? target="_blank" .*?>(.*?)</a>',html)[3:13] redu = re.findall('<td>(.*?)</td>',html)[0:10] a = []#创建空列表 for i in range(10): a.append([i+1,urls[i],redu[i][:-1]]) #完成创建 #使用pandans保存数据 from pandas.core.frame import Dataframe dict = pd.Dataframe(a,columns = ['排名','标题','热度(单位:万)']) data = pd.Dataframe(dict) print(data) #生成CSV文件 filename="百度热搜榜.csv" data.to_csv(filename,index=False)
#删除无效列与行
#df.drop('标题', axis=1, inplace = True)
#df.head()
#重复值处理
print(df.duplicated())
#检查是否有空值
print(df['热度'].isnull().value_counts())
#异常值处理
print(df.describe())
# 将数据统计信息打印出来
print(df.describe())
(1) from sklearn.linear_model import LinearRegression
X = df.drop("标题",axis=1)
predict_model = LinearRegression()
predict_model.fit(X,df['热度'])
print("回归系数为:",predict_model.coef_)
#绘制排名与热度的回归图
本文地址:http://syank.xrbh.cn/quote/369.html 迅博思语资讯 http://syank.xrbh.cn/ , 查看更多