博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
机器学习--第八讲--项目:预测桌游评论
阅读量:5966 次
发布时间:2019-06-19

本文共 1045 字,大约阅读时间需要 3 分钟。

hot3.png

1.桌游评论

最近,桌游又卷土重来,更深入的是,越来越多的战略桌游,比如,受到了巨大的欢迎。一个受欢迎的网站对这些类型的桌游进行了讨论和评述。

在这个项目中,你将会研究一个包含80000个桌游和他们相关的反馈分数。这组数据是 通过BoardGameGeek网站抓取的,并编译成CSV 形式。数据集被保存为board_games.csv,可以在这里.下载。

如果你在任何地方遇到问题,可以到我们的解决问题板块来咨询。

这里是数据集的前5行信息:

每一行代表了一种桌游,并且带有桌游的描述统计信息,连同反馈信息。这里有一些有趣的列名:

name--桌游的名字

playingtime-玩游戏时间(由制造商提供)

minplaytime--玩游戏的最少时间(由制造商提供)

maxplaytime--玩游戏的最多时间(有制造商提供)

minage---推荐的最小玩游戏年龄

users_rated----评价游戏的用户数

average_rating---用户给予游戏的平均评级(0-10)

total_weights---用户评判的“重量”数量,weight是BoardGameGeek创造的一种主观测量方式。他是涉及一个游戏有多有趣。  这里是它的所有解释。

average_weigh---所有主观权重的平均分(0-5)

机器学习一个有趣的任务也许就是使用其他列来预测average_rating。数据集包含相当多的错误值,并且很多行都没有评估,分数是0。为了让预测更加容易,你需要先把数据集合的这些错误都移除。

。通过Pandas库来读取board_games.csv数据框架,然后命名为board_games

。打印出board_games中的前几行,仔细观察数据

。使用数据框架的dropna方法以及把axis设置为0,来移除任何包含错误值的行。

。移除board_games里任何users_rated等于0的行。每个没有反馈的行也都删掉。

import pandas as pd

board_games=pd.read_csv("board_games.csv")
board_games=board_games.dropna(axis=0)
board_games=board_games[board_games["users_rated"]>0]
board_games.head()

转载于:https://my.oschina.net/Bettyty/blog/777223

你可能感兴趣的文章
Oracle 游标使用整理
查看>>
Backbone模型
查看>>
Ubuntu配置和修改IP地址
查看>>
mysql__CASE WHEN进行字符串替换处理
查看>>
Android手机安全性测试手段
查看>>
规则执行管理平台中远程和服务管理的学习1
查看>>
Jvm工作原理学习笔记(转)
查看>>
线程池的拒绝策略(重要)
查看>>
Windows系统下SSH客户端连接阿里云Linux服务器
查看>>
db2 日期处理
查看>>
树莓派3B+ (PPOE+hostapd)变身无线路由器
查看>>
我的友情链接
查看>>
javascript的规范
查看>>
程序中减少使用if语句的方法集锦
查看>>
struts2 在线用户记录
查看>>
Eclipse常用快捷键
查看>>
mount error 12 = Cannot allocate memory
查看>>
Spring工作原理详解
查看>>
Protobuf动态解析那些事儿
查看>>
浮点数:一种有漏洞的抽象【译】
查看>>