跳转到主要内容
Chinese, Simplified

介绍

数据科学(机器学习)项目为你提供了一种很有前途的方式来开启你在该领域的职业生涯。你不仅可以通过应用数据科学来学习数据科学,还可以在简历上展示项目!如今,招聘人员通过求职者的工作来评估其潜力,而不太重视证书。如果你只是告诉他们你知道多少,如果你没有什么可以展示给他们,那也没关系!这是大多数人挣扎和错过的地方。

你以前可能已经解决过几个问题,但如果你不能让它看起来很好看,很容易解释,那么别人怎么会知道你的能力呢?这就是这些项目将帮助你的地方。想想你将在这些项目上花费的时间,比如你的培训课程。你练习的时间越多,你就会变得越好!

我们确保为您提供来自不同领域的各种问题的体验。我们相信,每个人都必须学会巧妙地处理大量数据,因此包括了大型数据集。此外,我们还确保所有数据集都是开放的,可以免费访问。

  • 介绍
  • 有用信息
  • 初级数据科学项目
  • 中级数据科学项目
  • 高级数据科学项目
  • 结论
  • 常见问题

 

为了帮助您决定从哪里开始,我们将此列表分为3个级别,即:

  • 初级:该级别由数据集组成,这些数据集非常容易使用,不需要复杂的数据科学技术。您可以使用基本的回归或分类算法来解决这些问题。此外,这些数据集有足够多的开放式教程可以让您继续学习。在这个列表中,我们还提供了教程来帮助您入门。您也可以在这里查看AV的“数据科学导论”课程!
  • 中级:该级别由性质上更具挑战性的数据集组成。它由中大型数据集组成,这些数据集需要一些严肃的模式识别技能。此外,功能工程将在这里发挥作用。ML技术的使用没有限制;阳光下的一切都可以使用。
  • 高级级别:该级别最适合理解神经网络、深度学习、推荐系统等高级主题的人。这里还介绍了高维数据集。此外,现在是发挥创造力的时候了。看看最好的数据科学家在他们的工作和代码中所带来的创造力。

你想掌握机器学习和深度学习吗?这里有一个全面的计划,详细介绍了机器学习和深度学习的概念,以及25个以上的现实生活项目!

高级数据科学项目

1.识别您的数字数据集

该数据集允许您研究、分析和识别图像中的元素。这正是你的相机通过图像识别来检测你的脸的方式!轮到你构建和测试这项技术了。这是一个数字识别问题。此数据集有7000个28 X 28大小的图像,总计31MB。

问题:从图像中识别数字。

Start: Get Data | Tutorial: Get Here

2.城市声音分类

当你开始你的机器学习之旅时,你会遇到一些简单的机器学习问题,比如巨大的生存预测。但当涉及到现实生活中的问题时,你仍然没有足够的练习。因此,这个练习问题旨在向您介绍通常分类场景中的音频处理。该数据集由10个类别的8732个城市声音摘录组成。

问题:根据音频对声音类型进行分类。

Start: Get Data | Tutorial: Get Here

3.Vox名人数据集

音频处理正迅速成为深度学习的一个重要领域,因此这是另一个具有挑战性的问题。该数据集用于大规模说话者识别,包含名人从YouTube视频中提取的单词。这是一个用于隔离和识别语音识别的有趣用例。该数据包含1251位名人发表的10万条言论。

问题:弄清楚这个声音属于哪个名人。

Start: Get Data | Tutorial: Get Here

4.ImageNet数据集

ImageNet提供了各种问题,包括对象检测、定位、分类和屏幕解析。所有图片均免费提供。你可以搜索任何类型的图像,并围绕它构建你的项目。截至目前,这个图像引擎拥有超过1500万张大小高达140GB的多种形状的图像。

问题:要解决的问题取决于您下载的图像类型。

Start: Get Data | Tutorial: Get Here

5.芝加哥犯罪数据集

如今,每个数据科学家都有能力处理大型数据集。当公司有计算能力处理完整的数据集时,他们不再喜欢处理样本。此数据集为您提供了在本地机器上处理大型数据集所需的亲身体验。问题很简单,但数据管理是关键!该数据集有600万次观测。这是一个多分类的问题。

问题:预测犯罪类型。

Start: Get Data | Tutorial: Get Here

6.印度演员数据集的年龄检测

对于任何一个深度学习爱好者来说,这都是一个引人入胜的挑战。该数据集包含数千张印度演员的照片,您的任务是确定他们的年龄。所有图像都是从视频帧中手动选择和裁剪的,从而在比例、姿势、表情、照明、年龄、分辨率、遮挡和化妆之间产生高度的可变性。训练集中有19906幅图像,测试集中有6636幅图像。

问题:预测演员的年龄。

Start: Get Data | Tutorial: Get Here

7.推荐引擎数据集

这是对高级推荐系统的挑战。在这个练习问题中,你会得到程序员的数据和他们之前解决的问题,以及他们解决特定问题所花费的时间。作为一名数据科学家,你建立的模型将帮助在线评委决定向用户推荐的下一级问题。

问题:根据用户的当前状态,预测解决问题所需的时间。

Start: Get Data

8.VisualQA数据集

VisualQA是一个包含关于图像的开放式问题的数据集。这些问题需要理解计算机视觉和语言。这个问题有一个自动评估指标。该数据集有265016张图像,每张图像有3个问题,每个问题有10个基本事实答案。

问题:使用深度学习技术回答关于图像的开放式问题。

Start: Get Data | Tutorial: Get Here

结论

在上面列出的24个数据集中,你应该先找到一个与你的技能相匹配的数据集。比如说,如果你是机器学习的初学者,从一开始就避免使用高级数据集。不要贪多嚼不烂,也不要因为还有多少事情要做而不知所措。相反,要专注于循序渐进。

完成2-3个项目后,在简历和GitHub个人资料中展示它们(非常重要!)。如今,许多招聘人员通过查看他们的GitHub档案来招聘候选人。你的动机不应该是做所有的项目,而是根据要解决的问题、领域和数据集大小来挑选选定的项目。如果您想了解完整的项目解决方案,请参阅本文。

常见问题

Q1.如何提高我的数据科学技能?

A.你可以通过跟上行业的新趋势和技术来提高你的数据科学技能。练习不同类型的数据科学项目是磨练你技能的另一种方式。本文列出了24个不同难度级别的免费项目,供您测试和提高技能。

Q2.哪些好的机器学习项目?

A.以下是一些不同难度的良好机器学习实践项目数据集:

  • 初级项目:虹膜、贷款预测、大卖场销售、时间序列评估和学生评估。
  • 中级项目:人类活动识别、文本挖掘、旅行历史、人口普查收入和推特分类。
  • 高级项目:ImageNEt、数字识别、城市声音分类、年龄检测和推荐引擎。

Q3.一些初级数据科学项目是什么?

A.Iris数据集是一个很好的起点。其他初级数据科学项目包括贷款预测、大市场销售、时间序列评估、学生评估等。

原文地址
https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills/
本文地址
Article

微信

知识星球

微信公众号

视频号