十年網(wǎng)站開發(fā)經(jīng)驗 + 多家企業(yè)客戶 + 靠譜的建站團隊
量身定制 + 運營維護+專業(yè)推廣+無憂售后,網(wǎng)站問題一站解決
spark快的原因
1.內(nèi)存計算
創(chuàng)新互聯(lián)公司主要從事成都網(wǎng)站建設(shè)、網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計、企業(yè)做網(wǎng)站、公司建網(wǎng)站等業(yè)務(wù)。立足成都服務(wù)廊坊,十多年網(wǎng)站建設(shè)經(jīng)驗,價格優(yōu)惠、服務(wù)專業(yè),歡迎來電咨詢建站服務(wù):18982081108
2.DAG
spark shell已經(jīng)初始化好了SparkContext,直接用sc調(diào)用即可
lineage 血統(tǒng)
RDD wide and narrow dependencies
窄依賴每個 RDD partition最多被一個子RDD partirion依賴
/sbin(system binary)放的都是涉及系統(tǒng)管理的命令。
有些系統(tǒng)里面,普通用戶沒有執(zhí)行這些命令的權(quán)限。
有些系統(tǒng)里面,普通用戶的PATH不包括/sbin
data.cache 數(shù)據(jù)放到內(nèi)存中
spark-submit提交任務(wù)
scala代碼
package cn.chinahadoop.spark import org.apache.spark.{SparkContext, SparkConf} import scala.collection.mutable.ListBuffer import org.apache.spark.SparkContext._ /** * Created by chenchao on 14-3-1. */ class Analysis { } object Analysis{ def main(args : Array[String]){ if(args.length != 2){ println("Usage : java -jar code.jar file_location save_location") System.exit(0) } val conf = new SparkConf() conf.setSparkHome("/data/software/crazyjvm/spark") val sc = new SparkContext(conf) val data = sc.textFile(args(0)) data.cache println(data.count) data.filter(_.split(' ').length == 3).map(_.split(' ')(1)).map((_,1)).reduceByKey(_+_) .map(x => (x._2, x._1)).sortByKey(false).map( x => (x._2, x._1)).saveAsTextFile(args(1)) } }