DrivenData

Heroku的信任使DrivenData专注于扩大社会影响

数据科学社会企业依靠Heroku的专业知识来提供一个安全的平台来运行他们的应用程序.

有时解决问题的最好办法是请专家来. 这种观点是DrivenData社会影响使命的核心. DrivenData致力于通过众包数据科学社区的专业知识,并直接与社会影响组织合作,解决一些世界上最严峻的社会挑战. 当涉及到为他们的应用程序设置基础设施时, DrivenData将这项工作留给领域专家. 精益工程团队依靠Heroku提供一个完全管理的应用程序平台,使他们能够专注于他们最擅长的事情——构建创新型应用程序,将数据科学引入社会领域.

数据和社会影响的交集

DrivenData 与各种社会影响组织合作,帮助他们找到创新方法,在工作中利用数据的力量. Together, 他们研究伴侣的数据集, identify opportunities, 框架问题的声明, and develop hypotheses. 团队也可以引进外部专家来解决他们所面临的挑战 competitions 并邀请全球数据科学界提交他们最好的预测模型或算法. 获奖者会得到奖励和认可,有些人还能看到他们工作的实际情况. DrivenData帮助打包一些算法 open source tools for data scientists, software developers, researchers, 公民科学家在他们自己的项目中推动社会影响. 在这一切的背后,是运行在Heroku上的复杂网络应用,为竞争对手提供吸引人的体验, 社会影响的组织, 以及其他对这个独特空间感兴趣的人.

来自DrivenData比赛页面的截图
DrivenData运行在线机器学习 competitions 世界各地的数据科学家竞相为社会公益构建最佳算法.

从原始数据到开源工具

DrivenData最近的一个项目是Zamba Cloud,这是一个运行在Heroku上的野生动物识别应用程序. 挑战:研究人员, conservationists, 公园管理人员使用相机陷阱监控野生动物,每当动物经过时就会捕捉照片和视频. However, 这个设备产生了大量的视频,必须由人类审查,以确定特定的动物和物种. Often, 审查员会在假阳性上浪费大量时间, 比如树枝的运动, 当他们搜索“大海捞针”的图片时,可以推进他们的工作.

DrivenData向数据科学社区提出挑战,希望他们能够帮助解决这一难题. 来自90多个国家的数据科学家参加了这次会议 Pri-matrix分解竞争, 超过300人,000个视频剪辑来训练机器学习模型,帮助自动识别野生动物. 获胜的计算机视觉算法是Zamba, 一个开源的Python包和web应用程序,可以在视频数据中识别23种动物. 赞巴云通过为保护社区提供一个现成的工具来促进他们的努力,从而关闭了数据和影响之间的循环. 通过把它全部部署到Heroku, DrivenData可以迅速将他们的工具提供给最需要它的研究人员.

赞巴云的截图
来自Zamba Cloud的截图示例.

和赫鲁库一起快速平和

当他们创建最初的网页应用时, DrivenData评估了许多基础设施解决方案, 包括管理自己的服务器或云虚拟机. However, 创始人不想把开发应用程序的宝贵时间花在服务器配置和管理等日常的DevOps任务上. 他们很快决定管理解决方案更适合他们的小团队, BG大游集团是他们的首选.

对于BG集团来说,从Heroku的免费层面开始是一种快速进入并专注于开发的方法, rather than deployment. 艾萨克•Slavitt创始人之一 & 数据科学家,DrivenData

安全是DrivenData的另一个决定性因素. 作为一个以数据为中心的组织, 数据安全和用户信任是重中之重, 但团队中没有人是加固系统免受入侵的专家, 或者想花时间管理关键的更新. 选择Heroku的托管平台意味着将安全性融入其中. DrivenData可以专注于应用程序层的安全,并依靠Heroku的安全专家来确保平台和它的 data services remained in full compliance 具有行业标准和最佳实践.

BG集团非常重视安全问题. Heroku给BG集团的组织带来的好处之一是一种信任感,知道BG集团在保护用户数据的安全. 格雷格•Lipstein创始人之一 & DrivenData的业务发展主管

保持数据服务的效率

当涉及到存储数据时,DrivenData使用 Heroku Postgres 对自己的应用数据进行记录,如用户数据和比赛成绩. 比如他们最初决定在Heroku上运行网页应用, 对于小团队来说,选择托管数据服务是有意义的. 两位创始人希望专注于打造他们的数据驱动应用程序, 不要陷入数据库管理的泥潭. Instead, 他们依靠Heroku的运营专业知识和深厚的PostgreSQL经验来确保他们的底层数据库层是最新的和安全的. Heroku Postgres特性, 例如备份和回滚, 允许DataDriven按照他们认为合适的方式管理数据.

Heroku Postgres是由那些在职业生涯中思考如何正确做到这一点的人经营的——这是值得花钱的. Often, 正确做这些事情的最便宜的方法是花钱请专家来做, 而不是花开发人员的时间自己构建. 艾萨克•Slavitt创始人之一 & 数据科学家,DrivenData

应用程序的大部分数据处理是通过协调的 Heroku Redis. 当数据科学家向竞赛提交一组新的预测时, 一个自动化的过程会根据它所要解决的社会挑战中的真实数据对其进行评估. 这可能是一个计算开销很大的操作, 特别是当多个提交文件同时出现时. Heroku Redis将这些作业暂时存储在一个队列中,这样应用程序的 worker dynos 是否能在它们可用时立即处理它们.

DrivenData还使用Redis缓存竞争排名状态等内容. Without caching, 每次用户加载竞争排行榜页面, 应用程序必须解析整个提交历史, 识别和解决分数, 并执行可能取消某些分数的各种业务规则. 这是一个相对缓慢的操作,大约需要半秒. However, 将排行榜数据存储在Heroku Redis中可以避免昂贵的计算,直到出现新的提交内容, 这将为用户带来更快的页面加载体验.

《DrivenData》竞赛的最终排行榜截图
DrivenData比赛的最终排行榜.

发展应用,扩大任务

使用Heroku的结果, DrivenData的小团队能够保持高效并专注于完成自己的任务. 自2014年推出以来, 他们用新功能增强了平台,为合作伙伴组织和数据科学社区提供了更大的支持. Heroku还帮助DrivenData扩大了工程和业务运营规模. 团队可以快速建立和运行比赛, 从而扩大他们自己的能力,通过数据科学推动社会影响.

使用Heroku的最大优势是BG集团能够推出BG集团功能, BG集团比赛. BG集团可以专注于BG集团的核心工作,因为BG集团不用花费工程时间担心基础设施. 艾萨克•Slavitt创始人之一 & 数据科学家,DrivenData

参与数据科学!

有兴趣帮助解决社会挑战? 查看DrivenData目前的阵容 open competitions 提交你最好的解决方案. DrivenData还维护了一些 open source projects 为数据科学,机器学习和软件工程社区.


Code[ish] podcast标志的麦克风

来听一下艾萨克·斯拉维特主持的Code播客: 用数据科学解决社会问题.


在Heroku上的DrivenData

DrivenData的网络应用是内置的 Python and stores data using Heroku Postgres, Heroku Redis, and Redis To Go. The team uses Heroku Scheduler 以特定的时间间隔运行作业.