作者: BigLoser 访问次数: 977 创建时间: 2020-11-02 19:03:37 更新时间: 2024-03-29 18:44:57
.NET for Apache Spark 1.0 现已发布,这是一个用于 Spark 大数据的 .NET 框架,可以让 .NET 开发者轻松地使用 Apache Spark。
该软件包由微软和 .NET Foundation 牵头,经过大约两年的开发。在 2019 年的 Spark + AI 峰会上,微软曾宣布推出 .NET for Apache Spark,并发布了首个预览版本 v0.1.0。
1.0 版本包括以下内容:
var spark = SparkSession.Builder().GetOrCreate();
var tweets = spark.Read().Schema("date STRING, time STRING, author STRING, tweet STRING").Format("csv").Load(inputfile);
tweets = tweets.GroupBy(Lower(Col("author")).As("author"))
.Agg(Count("tweet").As("tweetcount"))
.OrderBy(Desc("tweetcount"));
tweets.Write().SaveAsTable("tweetcount");
spark.Sql(@"SELECT * FROM tweetcount").show();
// Define and register UDF
var concat = Udf<int?, string, string>((age, name)=>name+age);
// Use UDF
df.Filter(df["age"] > 21).Select(concat(df["age"], df["name"]).Show();
语言: zh-CN
翻译人员:
原作者:
转载地址:
源网址: https://www.oschina.net/news/119553/net-1-0-for-apache-spark-released
版权: 本站所有内容, 版权归原作者所有。发表原创内容将会获得现金奖励, 并且随着时间倍数增长, 请了解我们的内容奖励计划。