【机器学习】调配师：咖啡的完美预测-编程知识

有一天，小明带着一脸期待找到了你这位数据分析大师。他掏出手机，屏幕上展示着一份详尽的Excel表格。“看，这是我咖啡店过去一年的数据。”他滑动着屏幕，“每个月的销售量、广告投入，还有当月的气温，我都记录下来了。我总觉得这之间有关联，但我就是说不清楚。你能帮我找出其中的奥秘吗？”
在这里插入图片描述

你微微一笑，接过手机扫了一眼数据。“没问题，小明。这些数据就像咖啡店的DNA，隐藏着它的生命密码。而我们要做的，就是用线性回归这把钥匙，去解锁这些密码。”

你打了个响指，仿佛已经胸有成竹。“想象一下，这个线性回归模型就像一个智能咖啡师。它会根据过去的经验，也就是这些数据，来学习如何冲泡出一杯完美的‘预测销售额’。就像咖啡师会根据咖啡豆的种类、研磨的粗细、水温的高低来调整冲泡方法一样，我们的模型也会根据销售量、广告投入和气温来调整它的‘冲泡配方’，从而给出最准确的预测。”
在这里插入图片描述

小明的眼睛亮了起来，仿佛看到了新的希望。“那太棒了！这样一来，我就能提前知道哪些月份生意会火爆，哪些月份需要加大广告投入，还能提前规划好库存，避免浪费。”

你点了点头，表示赞同。“没错，这就是数据分析的魅力所在。它不仅能告诉你过去发生了什么，还能帮你预测未来会发生什么。这样一来，你就能做出更明智的决策，让你的咖啡店更上一层楼。”

说完，你迫不及待地打开电脑，准备开始构建这个神奇的线性回归模型。你知道，一旦模型构建成功，在这里插入图片描述
小明和他的咖啡店将迎来一个全新的时代。

在接下来的时间里，你和小明一起投身于数据的海洋中。你们清洗数据、构建特征、训练模型，每一步都充满了挑战和乐趣。

实际应用机器学习源代码

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error# 小明的咖啡店在过去一年里收集了详细的运营数据，包括每月的销售量（Sales）、广告投入（Advertising）、平均气温（Temperature）以及对应的月度销售额（Monthly_Revenue）
data = pd.read_csv('coffee_shop_data.csv', header=0)# 分离出影响销售额的特征变量和目标变量
X = data[['Sales', 'Advertising', 'Temperature']]  # 输入特征：销售量、广告投入、平均气温
y = data['Monthly_Revenue']  # 目标变量：月销售额# 按照80%训练集与20%测试集的比例划分数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 使用线性回归模型对咖啡店的销售额进行预测训练
revenue_predictor = LinearRegression()
revenue_predictor.fit(X_train, y_train)# 训练好的模型用于预测测试集上的销售额
predictions = revenue_predictor.predict(X_test)# 评估模型性能，计算均方误差（MSE）
mse = mean_squared_error(y_test, predictions)
print(f"模型在测试集上的均方误差(MSE)是: {mse:.2f}")# 输出模型参数，了解各特征对销售额的影响程度
print(f"Coefficients (销售量、广告投入、平均气温对月销售额的影响系数): {revenue_predictor.coef_}")
print(f"Intercept (截距，即当所有特征值为0时的预测销售额): {revenue_predictor.intercept_}")# 假设下个月预计有1500杯的销售量、500元的广告投入，以及20℃的平均气温
next_month_conditions = np.array([[1500, 500, 20]])
predicted_revenue_next_month = revenue_predictor.predict(next_month_conditions)
print(f"根据模型预测，下个月的预期销售额为: {round(predicted_revenue_next_month[0],3)}元")# 可视化分析 - 广告投入与实际月销售额的关系图
plt.figure(figsize=(10, 6))
plt.scatter(data['Advertising'], data['Monthly_Revenue'], color='blue', label='实际数据点')
plt.plot(data['Advertising'], revenue_predictor.predict(data[['Sales', 'Advertising', 'Temperature']]), color='red',label='拟合直线')
plt.xlabel('广告投入')
plt.ylabel('月销售额')
plt.title('广告投入与月销售额关系')
plt.legend()
plt.show()# 可视化分析 - 测试集中真实月销售额与预测月销售额的对比图
plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_test, color='blue', label='实际测试数据点')
plt.scatter(y_test, predictions, color='red', label='预测数据点')
plt.xlabel('实际月销售额')
plt.ylabel('预测月销售额')
plt.title('实际与预测月销售额对比（测试集）')
plt.legend()
plt.show()# 注：在处理特征前，请确保已对不同尺度的特征进行了适当的预处理，如归一化或标准化，以提高模型的准确性。