加入收藏 | 设为首页 | 会员中心 | 我要投稿 潍坊站长网 (https://www.0536zz.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

TikTok 的未来尘埃落定

发布时间:2021-02-12 16:19:08 所属栏目:外闻 来源:互联网
导读:做了上面的处理,我还存在疑问: 幸存者偏差仍存在,到底还存在多少? 排除幸存者偏差、红包的干扰,依赖主观判断,还有没有其他因素的干扰?如何证明? 评估方法个性化,可否 抽象为通用方法? 思考:差分计算和按红包分组 , 本质上排除各种因素干扰 ,尽

做了上面的处理,我还存在疑问:

  • 幸存者偏差仍存在,到底还存在多少?

  • 排除幸存者偏差、红包的干扰,依赖主观判断,还有没有其他因素的干扰?如何证明?

  • 评估方法个性化,可否抽象为通用方法?

思考:差分计算和按红包分组本质上排除各种因素干扰,尽可能构建平行世界,说白了,我们在寻找特征相同的用户群,因此,在方法层面也许可以统一

按照上面的思路,我们引入了协变量的概念,这个概念借鉴了因果推断算法

方法如下:

  • 通过多种特征,寻找特征相同的用户群(寻找协变量,协变量非常关键,后文会提到几个原则)

  • 每个群内,按照是否参与活动分为2组(构建平行世界),对比参与与未参与的差异,计算每个群组的贡献

  • 为了增强可解释性和可读性,简化分组,例如:合并小的分组(如合并同特征分段),较少部分特征,原则是简化分组不影响整体结论,同时简化分组也有利于解决过拟合问题

  • 对于部分分组,仍存在较强的幸存者偏差,做特殊标注(这样至少可以量化得到范围

  • 将各个分组的贡献相加,得到量化贡献范围(说明,虽结果不准确,但有一定的范围,也可以供部门决策,数据分析的很重要作用就是辅助决策)

核心流程如下:

 

这个时候我们是用cut为自变量,残差为因变量进行了作图,也就是看一看抠掉了carat对price的效应后,cut对price的实际的关系,可以看到这回随着cut越来越好,price也愈来愈高,这下就对了。

实际上,上面的过程就是一个统计控制的过程,我们在看cut对price的关系的时候需要控制掉carat对price的关系,这样得到的结果才是纯净的结果,有兴趣的同学还可以去看一看控制变量和混杂变量的区别,嘿嘿。

小结

今天用一个实际的例子给大家写了统计控制,感谢大家耐心看完。发表这些东西的主要目的就是督促自己,希望大家关注评论指出不足,一起进步。内容我都会写的很细,用到的数据集也会在原文中给出链接,你只要按照文章中的代码自己也可以做出一样的结果,一个目的就是零基础也能懂,因为自己就是什么基础没有从零学Python和R的,加油。


(编辑:潍坊站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读