Skip to content

P1

1.请简要介绍四种科学研究范式。

  • 实验科学:强调通过实验来收集数据和验证假设的科学方法。研究者通常在控制条件下操控变量,以便观察现象,并根据实验结果制定理论。
  • 理论科学:理论科学侧重于构建理论模型和框架,以解释自然现象或社会现象的原理和机制,而不一定依赖于实验数据。这些理论通常通过数学或逻辑推理进行验证。
  • 计算科学:使用计算机来模拟和分析复杂的自然或社会现象,建立数学模型,通过计算机编程求解问题。
  • 数据科学:数据科学涵盖了数据收集、清理、分析和解释等过程,以从大规模数据集中提取知识和见解。使用机器学习数据挖掘等方式获取结论和信息。

2.请解释数据、信息、知识的区别和关系。

  • 数据:数据是原始、未加工的事实、数字、符号或描述性信息的集合。数据通常没有特定的上下文或意义,它们只是一堆数字或字符。
  • 信息:信息是对数据进行组织、解释和赋予意义后的产物。信息通常有上下文,具有可理解的含义,并可用于做出决策或执行某些行动。
  • 知识:知识是更高级别的信息,是通过将信息与其他信息或经验相结合来建立的。它涉及对信息的理解、分析、评估和应用,以生成新的见解、规则或模式。
  • 总的来说,数据是信息的基础,而信息又是知识的基础。知识是更高层次的认知构建,它不仅包含了信息的含义,还具备了应用和理解的能力。

3.请简述结构化数据/半结构化数据/非结构化数据的区别。

  • 结构化数据:结构化数据是按照明确定义的数据模型或架构进行组织和存储的数据。这些数据以表格、数据库或电子表格等形式存在,通常包括行和列的结构,每列都有特定的数据类型和字段。
  • 半结构化数据:半结构化数据是介于结构化数据和非结构化数据之间的数据类型。它们没有固定的表格结构,但通常包含标记、标签或其他结构性元素(如JSON、XML等),以便在数据中识别和提取信息。
  • 非结构化数据:非结构化数据是没有明确结构或组织的数据,通常以自由文本、图像、音频、视频或自然语言的形式存在。这种数据类型不容易按行和列或其他规则进行组织。
  • 总结来说,结构化数据是高度组织和格式化的数据,半结构化数据具有一定的结构元素但不符合严格的模式,而非结构化数据则没有固定的结构和组织。

4.大数据有哪几个特征?

  • 大体量:数据规模很大
  • 多样性:包含不同格式和形态的数据
  • 时效性:需要在一定的可接受的时间内完成数据的处理
  • 准确性:结果要保证一定的准确性、正确性
  • 大价值:大数据具有多维度的价值,可以从中挖掘出巨大的商业价值

5.请简述金融数据的特征。

  • 数据众多:既有交易记录、账单等结构化数据也有视频音频等非结构化数据
  • 高时效性:要求数据在短时间内被快速处理,实时性高。
  • 可展示需求强:获取的数据需要以表格、曲线等形式清晰展示,便于进一步分析。
  • 逻辑性:金融数据具有高时序性、相关性,涉及到交易价格等变化具有前后关系的数据。
  • 高频性:股票市场等会在短时间内产生大量交易,需要对实时产生的大量数据进行分析。
  • 高度机密性:金融数据通常包含敏感信息,如个人身份、财务账户等,因此需要高度保密和安全性。
  • 高波动性:金融市场具有高度的波动性,价格和市场情况可以瞬息万变。