网是什么结构的字| 肠炎有什么表现| 为什么犹太人聪明| 监守自盗什么意思| 扛扛的是什么意思| 果冻是什么做的| 女人左眼跳是什么意思| 2月30日是什么星座| 50至60岁吃什么钙片好| 小排畸主要查什么| 公积金缴存基数是什么意思| 青椒炒什么好吃又简单| 贫血吃什么好| 口腔医学学什么课程| 土耳其烤肉是用什么肉| 戊是什么意思| 举什么什么举| 泄气是什么意思| 肠手术后吃什么恢复快| 什么叫近视| 促销员是做什么的| 左手指头麻木是什么原因| 腺样体增生是什么意思| 下限是什么意思| 月经血块多是什么原因| 精神出轨什么意思| 统招是什么意思| 什么是roi| 乌龟为什么喜欢叠罗汉| 月完念什么| 什么样的大便是正常的| 降血糖吃什么药| 陶白白是什么星座| 月亮星座是什么| 专科是什么| 炖猪排骨放什么调料| 处女座女生和什么星座男生最配| 天空为什么会下雨| 4月10日是什么星座| 送人礼物送什么好| 人参归脾丸适合什么人吃| 淋巴结核是什么病| 7月7号是什么节日| 其实不然是什么意思| 脸上长疙瘩是什么原因| 外围什么意思| 梦见猪肉是什么意思| 小孩肚子疼拉肚子吃什么药| 长江后浪推前浪是什么意思| 血糖高初期有什么症状| 蜱虫咬人后有什么症状图片| 世界上有什么花| 纱布是什么材质| 高硼硅是什么材质| 气血不足吃什么中药| md是什么职位| 天象是什么意思| 鸡婆是什么意思| 终结者是什么意思| 县副局长是什么级别| 党内的最高处分是什么| 扬琴属于什么乐器| 刺梨根泡酒有什么功效| 1919年属什么生肖| 水饮是什么意思| 滴虫长什么样子图片| 为什么同房后会出血| 积水是什么意思| 安全期什么时候| 丁字五行属什么| 阿迪达斯是什么牌子| 鼻子出血是什么原因引起的| 主动脉增宽是什么意思| 每天喝奶茶有什么危害| ug是什么| 梦到乌龟是什么意思| 血浆蛋白是什么| 寒天是什么| 捡到黄金是什么预兆| 脑梗吃什么东西好| 地果是什么| 什么叫高危性行为| 治疗早泄吃什么药| 胎动突然减少是什么原因| 吸血鬼初拥是什么意思| 康复治疗学是做什么的| 书生是什么意思| 糖类抗原125偏高说明什么| 孕妇肚子疼是什么原因| 潴留囊肿是什么意思| 黄芪的读音是什么| 切除子宫对身体有什么伤害| 兵马俑什么时候发现的| 胃肠功能紊乱是什么意思| 肺主什么| 鹿晗的原名叫什么| 骄傲什么意思| 甘耳朵旁什么字| 吃什么可以降火| halloween是什么意思| 感知力是什么意思| 凝胶是什么东西| 静脉炎的症状是什么| 诺是什么意思| 大疱性皮肤病是什么病| 副词是什么意思| 上焦火吃什么药最有效| 青蟹什么季节吃最好| 红颜知己是什么意思| 龟头炎用什么药治疗| 蔗去掉草字头读什么| 书中自有颜如玉是什么意思| 人间炼狱是什么意思| 空调外机不出水是什么原因| 牛郎是什么意思| 城市的夜晚霓虹灯璀璨是什么歌| 夏天脚底出汗是什么原因| 什么是户籍所在地| 猴子偷桃是什么生肖| 世侄是什么意思| 中指戴戒指代表什么| 象是什么结构| 子宫长什么样| 什么3121919Z空间| 鱼石是什么| 马润什么意思| 比细菌还小的东西是什么| 血栓吃什么药可以疏通血管| 什么奶茶好喝| 玻璃什么时候传入中国| 男女授受不亲是什么意思| 什么人不能吃茄子| 自杀吃什么药| 甲功三项是什么| 7月28是什么星座| 土色是什么颜色| 梅雨季节是什么时候| 突然头晕眼花站不稳是什么原因| 芹菜炒什么| 吃什么可以长头发| 手臂酸痛什么原因| 亚甲减是什么意思| 且行且珍惜是什么意思| 相生什么意思| 6月19日是什么日子| 娘娘的意思是什么| 性冷淡是什么意思| 眉毛里面长痘痘是什么原因| 史密斯夫妇什么意思| 尿不出尿是什么原因| 为什么筋膜炎一躺下才会疼| 1月10日什么星座| 体寒的女人吃什么能调理好身体| 女人梦见猪是什么预兆| 肝内高回声是什么意思| 股票pb是什么意思| 石棉是什么| 嘴子是什么意思| 异什么意思| 稀奶油是什么| 突然低血压是什么原因造成的| 7月8号是什么星座的| 苍蝇馆子什么意思| 古什么今什么| 丝瓜络有什么作用| pa是什么| 咳出痰带血是什么原因| 心衰病人吃什么食物好| 斗米恩升米仇什么意思| 脚上有痣代表什么| 纤维蛋白是什么| 有什么颜色| 加菲猫是什么品种| 热浪是什么意思| 殁送是什么意思| 家道中落是什么意思| 努嘴是什么意思| 嗝气是什么原因| 咳嗽吃什么食物好得最快最有效| 威士忌兑什么饮料好喝| 冷沉淀是什么| 人心是什么意思| 就请你给我多一点点时间是什么歌| 什么非常什么| 七手八脚是什么意思| 红加绿是什么颜色| 啊囊死给什么意思| 三个火是什么字念什么| 一什么鱼塘| 过敏性紫癜挂什么科| 立是什么结构的字| 为什么不愿意工作| 脑供血不足吃什么药好| 什么的哭声| 身上经常痒是什么原因| 三个水读什么| 湿疹是什么症状图片| mopar是什么牌子| 中国特工组织叫什么| 阑尾炎是什么症状| 戏谑是什么意思| 泰迪吃什么| o型血和ab型血生的孩子是什么血型| 脚趾麻木是什么病先兆| 生孩子前要注意什么| 一周不排便是什么原因| 口水分泌过多是什么原因| 备孕喝苏打水什么作用| chip什么意思| 大便不成形吃什么药| 上海青是什么菜| 不全纵隔子宫是什么意思| 神经系统是由什么组成的| 大荔冬枣什么时候成熟| 体内湿气太重吃什么药能快速除湿| 结膜炎挂什么科| 慢性荨麻疹吃什么药| 舒张压偏高是什么原因| 外感风寒吃什么药| 什么时候可以上环最好的| 子不教父之过是什么意思| 子宫内膜增厚是什么意思| 枫叶的花语是什么| 雷特综合症是什么症状| 女人左眼跳是什么意思| 黄豆酱做什么菜好吃| 什么飞扬| 龙虾不能和什么一起吃| ca医学代表什么意思| 什么是叠词| 磨牙是什么原因| 沉的右边念什么| 儿童肚子痛吃什么药| 房水由什么产生| 录取线差是什么意思| 山竹和什么不能一起吃| 河南有什么特色美食| 婴儿第一次发烧叫什么| 1963年属兔的是什么命| 茅台为什么这么贵| 孕育是什么意思| 腹泻吃什么食物| babies是什么意思| 手发胀是什么原因| 血液四项检查是什么| 砂仁是什么| 什么叫甲亢病| 什么都不放的冬瓜清汤| 移植后屁多是什么原因| 十月是什么星座| 6月30日什么星座| 全身检查要挂什么科| 什么是日记| 暂缓参军是什么意思| 磨人的小妖精是什么意思| 发烧头痛吃什么药| 摆地摊卖什么最赚钱而且很受欢迎| 什么是肺结节| 辛未日五行属什么| 5月27是什么星座| 早饭吃什么| 空调除湿和制冷有什么区别| 身体出汗多是什么原因| 为什么加油站不能打电话| 百度

AI测试 机器学习 02-问题定义和预处理数据

唱跳rap打篮球 · 2025-08-05 · 最后由 LDIAN 回复于 2025-08-05 · 3398 次阅读
百度 在劳动人事争议仲裁机构设立法律援助工作站,旨在把劳动关系的建立、运行、监督、调处全程纳入法治轨道,有效维护劳动者的合法权益,及时依法化解劳动关系矛盾,助力优化营商环境建设。

大家好!我是新人唱跳 rap 打篮球,是一个立志 2025 年开始每周都能水一篇文章的人


机器学习 01-1
机器学习 01-2

之前我们介绍了什么是机器学习,机器学习是一种从数据生成规则、发现模型,来帮助我们预测、判断、分析和解决问题的技术。

了解了这些我们就可以尝试跑一些例子了,但你还需要掌握一个知识点,机器学习项目分为哪些步骤,才能开始你的训练

一个机器学习项目大致分为五个步骤:定义问题、收集数据和预处理、选择算法和确定模型、训练拟合模型、评估并优化模型性能。

今天来一起学习下定义问题和预处理数据

定义问题


在定义问题这个环节中,我们要剖析业务场景,设定清晰的目标,同时还要明确当前问题属于哪一种机器学习类型。

首先我们得了解一下我们项目的业务场景。假设你是网络平台的运营人员,对微信推广文案的运营效率进行分析。

你收集了大量文案的数据,包括点赞数、转发数和浏览量等等,就像下面一样

点赞数 转发数 热度指数 文章评级 浏览量
2646 1347 7 5 260004
816 816 4 6 100004
1224 612 6 5 164502
1261 1261 6 6 163001
1720 1720 7 5 260401
1541 1541 7 5 220002

微信公众号阅读量超过 10 万之后,就不能显示它的具体阅读量了。

针对这个问题,我们的目标,建立一个机器学习模型,根据点赞数和转发数等指标,估计一篇文章能实现多大的浏览量。

估计浏览量,所以在这个数据集中:点赞数、转发数、热度指数、文章评级,这个 3 个字段都是特征,浏览量就是标签。

这里已经有要估计的标签了,所以这是一个监督学习问题。

再加上我们的标签是连续性的数值,因此它是一个回归问题。

在这个数据集中,特征和标签之间明显呈现一种相关性。

点赞数、转发数多的时候,往往浏览量也多。

但是,这种相关性可以通过哪个具体的函数来描述呢?目前我们还不知道,所以我们在这个项目中的任务就是找到这个函数。

预处理数据


数据的收集和预处理 在所有机器学习项目中都会出现,它的作用是为机器学习模型提供好的材料。

数据好,模型才跑得好,数据的收集和预处理其实包含了很多步骤,大致分为下面六个步骤

  • 收集数据
  • 数据可视化
  • 数据清洗
  • 特征工程
  • 构建特征集和标签集
  • 拆分训练集、验证集和测试集

在神经网络和深度学习出来后,这些步骤的投入也不像以前那么多了

1.数据收集

我们的项目中,已经把它做好了,你可以在这里下载现有的数据集

2.数据可视化

我们可以使用下面的代码进行这些步骤

import pandas as pd

# 可视化
df_ads = pd.read_csv('data.csv')
print(df_ads.head())

# 导入数据可视化所需要的库
import matplotlib.pyplot as plt
import seaborn as sns
# 设置全局字体为 SimHei(黑体)[3,7,11](@ref)
plt.rcParams['font.sans-serif'] = ['SimHei']
# 解决负号显示异常[5,11](@ref)
plt.rcParams['axes.unicode_minus'] = False  
plt.plot(df_ads['点赞数'], df_ads['浏览量'],'r.',label='Training data')
plt.xlabel('点赞数')
plt.ylabel('浏览量')
plt.legend()
plt.show()


从这种图中可以看出来,这些数据基本上集中在一条线附近

它的标签和特征之间,好像是真的存在着线性的关系,这可以为我们选模型提供参考信息。

使用 Seaborn 的 boxplot 工具画个箱线图

看这个数据集里有没有 “离群点”,这里随便选择了热度指数这个特征,你也可以为其他特征试试绘制箱线图。

data = pd.concat([df_ads['浏览量'], df_ads['热度指数']], axis=1) # 浏览量和热度指数
fig = sns.boxplot(x='热度指数', y="浏览量", data=data) # 用seaborn的箱线图画图
fig.axis(ymin=0, ymax=800000); #设定y轴坐标

输出的箱线图:

箱线图是由五个数值点组成,分别是最小值(min)、下四分位数(Q1)、中位数(median)、上四分位数(Q3)和最大值(max)。

在统计学上,这叫做五数概括。这五个数值可以清楚地为我们展示数据的分布和离散程度。

这个图中下四分位数、中位数、上四分位数组成一个 “带有隔间的盒子”,就是所谓的箱。

上四分位数到最大值之间建立一条延伸线,就是所谓的线,也叫 “胡须”

胡须的两极就是最小值与最大值,此外,箱线图还会将离群的数据点单独绘出。

箱线图,热度指数越高,浏览量的中位数越大。

还可以看到,有一些离群的数据点,比其他的文章浏览量打了很多,这些 “离群点” 就是我们说的 “爆款文章” 了

3.数据清洗

  • 处理缺失的数据
  • 处理重复的数据
  • 处理错误的数据
  • 处理不可用的数据

这个数据集可以看到有些 “转发数” 的值为 “NaN”,意思是 Not A Number。

在 python 中,它代表无法表示、也无法处理的值,这种就是典型的脏数据

df_ads.isna().sum()

通过上面的函数统计 NaN 的个数

df_ads = df_ads.dropna()

通过上面的函数把出现 NaN 的数据行删除

离群点算脏数据吗?这个没有固定的答案,需要根据实际的情况评估,这里我们不删除这些离群点

4.特征工程

特征工程是一个专门的机器学习了领域,而且我认为它是数据处理过程中最有创造力的环节,特征工程做得好不好,非常影响机器学习模型的效率。

在数据集中,每多一个特征,模型拟合时的特征空间就更大,运算量也就更大。

所以,摈弃掉冗余的特征、降低特征的维度,能使机器学习模型训练练得更快。

特征工程还能更好地表示业务逻辑,并提升机器学习模型的性能。

我们的项目问题相对简单,对特征工程的要求不高,这里不做特征工程。

5.构建特征集和标签集

特征是所收集的各个数据点,是要输入机器学习模型的变量。

而标签是要预测、判断或者分类的内容。

对于所有监督学习算法,我们都需要向模型中输入 “特征集” 和 “标签集” 这两组数据。

因此,在开始机器学习的模型搭建之前,我们需要先构建一个特征数据集和一个标签数据集。

特征集将原始数据集的 “浏览量” 删除就行了

X = df_ads.drop(['浏览量'],axis=1)

标签是我们想要预测的浏览量

y = df_ads.浏览量

我们可以看看特征集和标签集里面都有什么数据

X.head()
y.head()

原始数据被拆分成了机器学习的特征集和标签集。

这里还需要进一步从行的维度横向拆分。

6.拆分训练集、验证集和测试集

为了简化流程,经常会省略验证的环节。只拆分训练集和测试集,此时测试集就肩负着验证和测试双重功能了。

留做测试的数据比例一般是 20% 或 30%。

如果你的数据量非常庞大,比如超过一百万的时候,那你也不一定非要留这么多。

一般来说有上万条的测试数据就足够了。

这里我们按 8/2 的比例拆分数据

# pip install scikit-learn
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

这里请注意一下,虽然随机分割,但要指定一个 random_state 值,这样都保证程序每次运行都分割一样的训练集和测试集。

训练集和测试集每次拆分都不一样的话,那比较模型调参前后的优劣就失去了固定的标准。

现在,训练集和测试集拆分也完成了,你会发现原始数据变成了四个数据集

  • 特征训练集(X_train)
  • 特征测试集(X_test)
  • 标签训练集(y_train)
  • 标签测试集(y_test)

到这里,我们全部的数据预处理工作就结束了。

总结一下

这里我们介绍了机器学习实战 5 步中的前两步:定义问题以及数据的收集和预处理。

步明确定义要解决的问题,我们就没办法有的放矢地选择模型。

简单聊了一下数据收集和预处理的六个小步

数据可视化和特征工程,因为无定法可循,所以很考验经验,它是我们对已有数据找感觉的过程,也是下一步把数据给模型之前的必要准备。

注意:

  • 六个小步骤的次序并不是固定的,按实际项目去操作
  • 在一些特定的机器学习项目中,可能不需要全部用到六个步骤

好了,今天就到这里了,晚安!


我是新人唱跳 rap 打篮球,是一个立志 2025 年开始每周都能水一篇文章的人,希望我的文章可以给你带来好心情!

共收到 1 条回复 时间 点赞

选择模型,调参比较麻烦吧,感觉要达到比较理想的拟合效果还是比较难,80% 容易,到 90% 甚至 99% 就难

唱跳rap打篮球 机器学习 03-如何建立模型 中提及了此贴 07月18日 20:19
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册
什么的心情 粗钢是什么 生存是什么意思 今年42岁属什么生肖 内分泌科看什么
胆结石是什么原因造成的 三唑仑是什么药 雷替斯是什么药 牛犇是什么意思 锤子什么意思
木舌是什么字 冷漠什么意思 腰间盘突出吃什么药 经常上火是什么原因 牛奶能做什么美食
葡萄打什么药 一晚上尿五六次是什么原因 上午十点半是什么时辰 吃毛蛋有什么好处 死马当活马医是什么意思
初心是什么hcv8jop4ns1r.cn 碘是什么东西hcv8jop1ns1r.cn 咖啡什么牌子的好hcv8jop8ns1r.cn 咳嗽能吃什么水果hcv8jop3ns0r.cn 叉烧炒什么菜好吃hcv9jop5ns3r.cn
哮喘吃什么药管用wuhaiwuya.com 皇家礼炮是什么酒hcv7jop5ns1r.cn 深水炸弹什么意思hcv9jop5ns6r.cn 降火吃什么hcv9jop6ns8r.cn 答辩是什么意思hcv8jop9ns2r.cn
和什么细什么的成语hcv7jop9ns0r.cn 过期的维生素c有什么用途hcv9jop3ns6r.cn 避孕药有什么副作用jasonfriends.com 果腹是什么意思hcv9jop5ns7r.cn 印度属于什么亚hcv8jop4ns7r.cn
什么的鸟儿hcv8jop0ns6r.cn s925是什么意思gysmod.com 夏天为什么会下冰雹hcv8jop4ns6r.cn 眼袋大用什么方法消除hcv7jop5ns5r.cn 什么叫梅核气jingluanji.com
百度