推广 热搜:   公司  企业  快速  中国  设备  上海  未来  行业   

爬取百度热搜榜及数据分析与可视化处理

   日期:2024-10-31     移动:http://kaire.xrbh.cn/quote/369.html
import requests
	import re
	import pandas as pd
	#请求网页
	headers = { 'User-Agent': '5498'}
	response = requests.get('https://tophub.today/n/Jb0vmloB1G',headers=headers)
	html=response.text
	#print(html)
	#解析网页与抓取信息
	urls = re.findall('<a href=https://www.cnblogs.com/Zlj258258/p/.*? target="_blank" .*?>(.*?)</a>',html)[3:13]
	redu = re.findall('<td>(.*?)</td>',html)[0:10]
	a = []#创建空列表
	for i in range(10):
	a.append([i+1,urls[i],redu[i][:-1]])
	#完成创建
	#使用pandans保存数据
	from pandas.core.frame import Dataframe
	dict = pd.Dataframe(a,columns = ['排名','标题','热度(单位:万)'])
	data = pd.Dataframe(dict)
	print(data)
	#生成CSV文件
	filename="百度热搜榜.csv"
	data.to_csv(filename,index=False)
#删除无效列与行
#df.drop('标题', axis=1, inplace = True)
#df.head() 

  #重复值处理

爬取百度热搜榜及数据分析与可视化处理

  print(df.duplicated())

 #检查是否有空值
  print(df['热度'].isnull().value_counts())

  #异常值处理
  print(df.describe())

  

  # 将数据统计信息打印出来

   print(df.describe())

  (1) from sklearn.linear_model import LinearRegression

  X = df.drop("标题",axis=1)
  predict_model = LinearRegression()
  predict_model.fit(X,df['热度'])
  print("回归系数为:",predict_model.coef_)

 #绘制排名与热度的回归图

本文地址:http://syank.xrbh.cn/quote/369.html    迅博思语资讯 http://syank.xrbh.cn/ , 查看更多

特别提示:本信息由相关企业自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


相关动态
推荐动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2023022329号