我们需要仰赖三大技能。
- 研究人员:机器学习,统计学,数学,计算机科学。
- 系统黑客:专注于数据储存、传送、队列、处理的计算机科学家和工程师,在许多情况下还需要分布式系统的技能。
- 前端工程师:设计师、交互设计师、JavaScript 高手、用户体验。
先找到「足够好」的模型
研究驱动的数据型创业公司的资源往往重度受限。于是,先开发出一个「足够好」的而又简单的模型,借助这个模型发现问题,然后获得顾客的关注和投资者的融资,以及诸如此类的玩意。
对于这类创业公司,应该做到,在最优的解决方案出炉之前就要拿出产品来。有了足够好的方案,才能继续深入研究,并逐步成为最好的方案。
这是重要的观念,宜尽早考虑为妙。如果在同样的风险下,仅凭较小的边际收益便能击败标普 500 指数,你将会成为一个英雄。对于其他问题,只要你足够努力,自然能够解决。
如果结果必须精准无误,那么也许你想要解决的问题并不适合研究驱动型创业公司。如果你的项目只需稍作改进就能产生效益,那么正适合用来启动创业公司。
日复一日,你总会做的更好 — 完美的开局不足以让你押上全部的赌注。
从单个数据源开始
如果你把许多不同的数据源集成到单视图中用于创建你的特征向量,那么接着你也许会想以某个单一的数据源作为模型的基础,然后将其他数据源分次装入。
许多问题的模式相通:一个主要的密集数据源和几个增入主源的系数稀疏数据源。
如果一次整合过多数据,你也许会发现自己已被数据处理和转换的复杂度压倒,而这亦会伤及你的研究能力。也可能会限制你从数据源中提取信息的能力,因为不断的修改数据,你便很难专注于从每个数据源中提取信息。
软件开发的经验教训
早发布、常发布、多评估。没错 — 在做这些的时候你都可以继续研究。
那种认为可以肆意制定未来研究目标的看法纯属胡说八道。一步一个脚印 — 这种方法更好。
步伐可能会有所不同,时间也可能会有不同,而且也许有很多困难,但你仍可以步步为营。
是研究带我走入敏捷和 TDD(编者:测试驱动型开发,Test-Driven Development)。自从 2003 年以来,我一直这么做研究。TDD 是一门科学 — 提出你的假设,找到测试的办法,然后便去测试。
选定你的度量以及测试的方法。什么才是足够好呢?什么时候才能达到收益递减点?
不要想那些你死了后都完不成的东西。你要不断的告诫自己。
假设检验
请记住,在创业公司, 一切都是假设,而你的工作就是测试假设。
- 你可以从数据源中提取多少数据?也许你有大量的数据,但杂讯过多,价值过少。
- 数据的稀疏程度如何?那种极为详实但却罕有的数据源亦无助于事。
- 你能找到一个足够简单模型,能够迅速启动,并也能招徕用户吗?
- 你能利用那些从早期的「足够好」的模式所获得的收入来扩展业务或精进研究吗?
- 你的模型可以产品化或装入某个人们非常在意的服务之中吗?
[原文链接;作者:Bradford Cross]