Yuexin'Blog


  • 首页

  • 归档

  • 沦为笑话

  • 标签

  • 分类

  • 颓废苟人

Spark面试题

发表于 2018-09-23 | 分类于 Spark | 阅读次数:

Spark中的RDD是什么,有哪些特性

RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。

Dataset:就是一个集合,用于存放数据的

Distributed:分布式,可以并行在集群计算

Resilient:表示弹性的

  • 1、RDD中的数据可以存储在内存或者是磁盘
  • 2、RDD中的分区是可以改变的

五大特性

  • A list of partitions:一个分区列表,RDD中的数据都存在一个分区列表里面
  • A function for computing each split: 作用在每一个分区中的函数
  • A list of dependencies on other RDDs: 一个RDD依赖于其他多个RDD,这个点很重要,RDD的容错机制就是依据这个特性而来的
  • Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned): 可选的,针对于kv类型的RDD才具有这个特性,作用是决定了数据的来源以及数据处理后的去向
  • Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file): 可选项,数据本地性,数据位置最优

概述一下spark中的常用算子区别(map、mapPartition、foreach、forEachPartition)

  • map: 用于遍历RDD,将函数f应用于每一个元素,返回新的RDD(transformation算子)。
  • foreach:用于遍历RDD,将函数f应用于每一个元素,无返回值(action算子)。
  • mapPartitions:用于遍历操作RDD中的每一个分区,返回生成一个新的RDD(transformation算子)。
  • foreachPartition: 用于遍历操作RDD中的每一个分区。无返回值(action算子)。

总结:一般使用mapPartitions或者foreachPartition算子比map和foreach更加高效,推荐使用。

react and vue summary

发表于 2018-09-15 | 分类于 Web | 阅读次数:

前言

俗话说的好,好记忆不如烂键盘;所以博主就把自己理解的或者别人总结的东西放到这里

阅读全文 »

how-display-contents-works

发表于 2018-03-29 | 阅读次数:

As I frequently mention, every element in the document tree is a rectangular box。Broadly speaking, this “rectangular box” consists of two sections. First we have the actual box, which consists of the border, padding, and margin areas. Second, we have the contentsof the box; the content area.

image

阅读全文 »

这七种迹象,暗示你的生活正慢慢变好

发表于 2017-12-08 | 分类于 生活 | 阅读次数:

image

转眼,离2017年的结束只有24天。

阅读全文 »

jquery-wechat-sdk-api

发表于 2017-11-15 | 分类于 tool | 阅读次数:

依赖模块

1
2
3
4
$ npm install jqyery
$ npm install weixin-js-sdk

简介

一个基于jquery的兼容AMD、CMD、Commandjs的模块包,目的在于帮助微信开发者更好的更方便的使用微信里面的api。

阅读全文 »

前端一键打包发布

发表于 2016-11-13 | 分类于 前端工程化 | 阅读次数:

安装gulp

全局安装 gulp

1
2
$ npm install --global gulp

作为项目的开发依赖(devDependencies)安装

1
2
$ npm install --save-dev gulp
阅读全文 »

快速理解模块化加载

发表于 2016-11-13 | 分类于 Web | 阅读次数:

Javascript模块化

在了解这些规范之前,还是先了解一下什么是模块化。

模块化是指在解决某一个复杂问题或者一系列的杂糅问题时,依照一种分类的思维把问题进行系统性的分解以之处理。模块化是一种处理复杂系统分解为代码结构更合理,可维护性更高的可管理的模块的方式。可以想象一个巨大的系统代码,被整合优化分割成逻辑性很强的模块时,对于软件是一种何等意义的存在。对于软件行业来说:解耦软件系统的复杂性,使得不管多么大的系统,也可以将管理,开发,维护变得“有理可循”。

还有一些对于模块化一些专业的定义为:模块化是软件系统的属性,这个系统被分解为一组高内聚,低耦合的模块。那么在理想状态下我们只需要完成自己部分的核心业务逻辑代码,其他方面的依赖可以通过直接加载被人已经写好模块进行使用即可。

阅读全文 »

JSON WEB TOKEN

发表于 2016-10-31 | 分类于 Web | 阅读次数:

JSONWebToken API

An implementation of JSON Web Tokens.This was developed against draft-ietf-oauth-json-web-token-08. It makes use of node-jws.

安装

1
2
$ npm install jsonwebtoken

版本迁移

From v7 to v8
阅读全文 »

nodejs搭建web服务

发表于 2016-10-25 | 分类于 Web | 阅读次数:

安装nodejs、npm

安装成功之后,使用命令测试是否成功:

1
2
3
4
$ node -v
v6.10.2
1
2
3
4
$ npm -v
5.3.0
阅读全文 »

一行代码搭建Hexo站点

发表于 2016-10-23 | 分类于 Web | 阅读次数:

初始化Hexo模版引擎

一行代码快速搭建Hexo.NexT主题网站,来吧,趁热打铁一起快速进入学习吧!

执行安装

进入本机E盘Blog目录下

  • 第一步,安装下载Hexo模版,即初始化Hexo模版
  • 第二步,进入blog文件夹,执行安装依赖包
  • 第三步,启动Hexo服务
  • 第四步,打开控制台给出的http地址,http://localhost:4000/
阅读全文 »
Yuexin Pan

Yuexin Pan

天道酬勤

10 日志
5 分类
16 标签
RSS
GitHub E-Mail QQ
© 2018 Yuexin Pan
由 Hexo 强力驱动
0%