Wordle是《纽约时报》目前每天提供的一个流行的谜题。玩家试图通过六次或更少的时间猜测一个五个字母的单词来解决谜题,每次猜测都会得到反馈。对于这个版本,每个猜测都必须是一个真实的英语单词。不被比赛认定为文字的猜测是不允许的。Wordle越来越受欢迎,游戏版本现在有60多种语言。
《纽约时报》网站上的Wordle说明指出,在你提交文字后,瓷砖的颜色将会改变。黄色平贴表示该贴中的字母在单词中,但它在错误的位置。绿色的贴表示该贴中的字母在单词中并且在正确的位置。一个灰色的贴图表示该贴图中的字母根本不包含在单词中(见附件2)[2]。图1是一个示例解决方案,在三次尝试中都找到了正确的结果。
玩家可以在常规模式或“困难模式”下玩。Wordle的硬模式让玩家的游戏更加困难,因为一旦玩家找到了一个单词中正确的字母(平铺是黄色或绿色的),这些字母必须在随后的猜测中使用。图1中的示例是在困难模式下播放的。
许多(但不是所有)用户都在推特上报告了他们的分数。对于这个问题,MCM已经生成了2022年1月7日至2022年12月31日的每日结果文件(见附件1)。这个文件包括日期、比赛号码,一天的单词,报告分数的人数,球员的硬模式,和猜测的比例在一次尝试,两次尝试,三次尝试,四次尝试,五次,六次尝试,或无法解决谜题(由X)。例如,在图2中,2022年7月20日的单词是“陈腐的”,结果是通过挖掘Twitter得到的。虽然图2中的百分比总和为100%,但在某些情况下,由于四舍五入,这可能不是真的。
《纽约时报》已经要求你对此文件中的结果进行分析,以回答几个问题:
● 报告的结果的数量每天都在变化。开发一个模型来解释这种变化,并使用您的模型为2023年3月1日报告的结果数量创建一个预测区间。这个单词的任何属性会影响在硬模式下播放的分数报告的百分比吗?如果是,如何处理?如果没有,为什么不呢?
● 对于未来日期的给定未来解决方案词,开发一个模型,允许您预测报告结果的分布。换句话说,来预测未来一个日期的(1、2、3、4、5、6、X)的相关百分比。你的模型和预测有哪些不确定性?举一个你在2023年3月1日预测ERNIE这个词的具体例子。你对你的模型的预测有多有信心?
● 开发和总结一个模型,按难度分类解决方案词。识别与每个分类关联的给定单词的属性。使用你的模型,ERNIE这个词有多难?讨论你的分类模型的准确性。
● 列出并描述此数据集的其他一些有趣的特性。
问题一需要对这个数量做预测。这典型的就是一个一维的数量,一维时间预测问题。对于时间序列的预测问题我们方法思路已经有很多了吧,比如ARIMA,多元线性回归等等,但是这里只有一维,所以我们可能会自然想到ARIMA。有同学试过ARIMA但是效果始终都不怎么好,怎么回事呢?原来,这个序列是一个典型的非平稳序列,要是用ARIMA预测这个平稳性似乎差分几次还是消不掉,效果可能不太好(做短期还可以,长了比如往后预测30步再后面几乎是直线)。同学们有没有发现这个地方它其实有点像一个曲线,就是我们在SEIR模型里面讲到的传染病患者曲线变化呀?我们其实可以从这个方面下手,把浏览到Wordle的人群分为玩和不玩,再进一步细化为S(未接触用户)、E(有玩游戏意愿用户)、I(玩家)、R(玩累了弃游玩家)来进一步拟合参数。而上下界则可以使用CI刻画就可以了。
第二问需要构建模型从单词里面学习特征预测各个尝试次数的百分比,这个模型就很有意思了。单词的特征,怎么刻画?结果为几个维度构成的向量,用什么模型?很多同学会第一时间想到神经网络,包括我,尽管我一直强调数据量太小神经网络效果不会好的,但这个地方因为是vec2vec问题,现在哪怕是效果没那么好我也准备选择使用神经网络了。但似乎现实比较打脸,因为神经网络的效果它确实没那么好,不建议用MATLAB里面的神经网络的。首先想想构造哪些特征吧,比较好的一点就是单词都是五个字母,然后思考一下一个常识哈:有些字母经常连在一起,比如ea,ch等等,那么如果能够统计出这个“字母共现矩阵”去找单词里面出现了哪些共现模式,这是不是就可以构造特征呢?包括一些特征出现的位置等,也可以算是特征吧,那么这样我们就可以构造以共现模式为自变量的稀疏特征,预测百分比。另外还没完,考虑考虑这个数据是不是会具有一些时序性呢?例如说玩家是那么一批人,昨天试错的经验会不会对今天有影响呢?也就是说,前一天的结果是不是可以引入到下一天的特征里面?我认为是很有可能的。而实验结果也证明这样子引入对结果是有一些提升作用的。
第三问接下来的就是词汇的分类,难度划分例如通过选择困难模式比率和百分比指标作为基础数据进行无监督分类。分类结束后,将上述属性变量作为自变量,类别作为因变量,构建机器学习模型训练,测试单词类别的准确率,计算一些性能指标加以说明(混淆矩阵、ROC曲线等),最后识别给定单词“ERNIE”的难度,对于无监督分类和之后的机器学习算法的训练效果都可以进行灵敏度分析以说明模型的可行性和可靠性。大家可以测试比较流行的几种机器学习算法,例如SVM、LGBM等等,这里LGBM是比较好的模型。
C题是MCM里面唯一一个给了数据的题,从今年作答的情况来看做的人是真的很多,各种方法也是五花八门。逛知乎的时候还看到说有一个发了两篇SCI一区的同学拿他专利里面的方法对付C,我觉得是有被卷到的。不过美赛这个比赛很玄学,并且绝对不是你的模型多花就能拿多好的奖项。我一直坚持大道至简。但是这个题目的数据确实不太行,想提升这个准确率的确是很难的一件事因为数据本身确实很烂。一些网络上声称能够达到很高很高准确率的文章也不排除带了虚张声势的成分吧。
2023年美赛春季赛报名进行中
错过了2月常规赛
千万别错过这场仅限今年加场的春季赛
辅助报名请认准:
报名链接:
https://www.saikr.com/vse/comap/202303
赛氪连续10年为美赛辅助报名提供服务,截至目前已成功为12万余名学生完成了美赛辅助报名!成为目前国内最大、最靠谱的辅助报名平台。
辅助报名优势:
🔴赛氪辅助报名方式简单、报名通道安全,直接在线报名组队,使用微信/支付宝即可缴费,无须VISA等国外银行卡,不用担心信用卡盗刷问题出现,极大程度上减轻了学生们的报名压力。
🔴赛氪报名通道快速高效,报名后立即响应,且一对一发送美赛控制号及最新通知,可在【我的消息】中查收。
🔴额外赠送大量资料、视频、课程、软件以及赛题翻译等服务(报名后无需额外添加老师领取课程,可立即开启学习、队内所有同学同享)。
如有疑问欢迎咨询
辅助报名负责人QQ:1870544744
客服微信号:saikr-zhang
美赛辅助报名接待群:1014064840