APACHE SPARK LÀ GÌ

  -  
" data-medium-file="https://ongxuanhong.files.wordpress.com/2015/11/apache-spark.jpg?w=665?w=300" data-large-file="https://ongxuanhong.files.wordpress.com/2015/11/apache-spark.jpg?w=665?w=665" />

Apache Spark


Apache Spark in-memory clusters đang là tiêu điểm chú ý của nhiều doanh nghiệp lớn trong vấn đề ứng dụng công nghệ vào so với và cách xử lý tài liệu hối hả. Trong nội dung bài viết này, tôi sẽ trình diễn một tranh ảnh tổng quan lại tốt nhất về Apache Spark, một Một trong những gỉai pháp yên cầu cần gồm lúc mong mỏi cách xử trí Big data.

Bạn đang xem: Apache spark là gì


Tổng quan liêu về Spark

Apache Spark là 1 trong những open source cluster computing framework được cải tiến và phát triển sơ khởi vào khoảng thời gian 2009 vày AMPLab tại ĐH California, Berkeley. Sau này, Spark đã được trao cho Apabít Software Foundation vào năm 2013 với được cách tân và phát triển cho đến nay.

Spark có thể chấp nhận được sản xuất cùng so với nkhô cứng các mô hình dự đân oán. ngoài ra, nó còn cung cấp kỹ năng tróc nã xuất cục bộ tài liệu cùng lúc, nhờ vậy ta không nhất thiết phải lấy mẫu tài liệu – đòi hỏi vì những ngữ điệu xây dựng như R. Thêm vào kia, Spark còn cung cấp tuấn kiệt streaming, được dùng để làm xây dựng những mô hình real-time bằng cách nạp toàn cục tài liệu vào bộ nhớ.

lúc ta gồm một tác vụ làm sao kia qúa béo nhưng mà cần thiết xử lý bên trên một máy tính xách tay hay là 1 VPS, Spark được cho phép ta phân loại tác vụ này thành hầu hết phần dễ quản lý rộng. Sau kia, Spark đang chạy những tác vụ này trong bộ lưu trữ, bên trên các cluster của khá nhiều VPS không giống nhau để khai quật vận tốc truy xuất nhanh tự RAM. Spark áp dụng API Resilient Distributed Dataphối (RDD) nhằm xử lý tài liệu.


" data-medium-file="https://ongxuanhong.files.wordpress.com/2016/11/spark-mesos.png?w=665?w=300" data-large-file="https://ongxuanhong.files.wordpress.com/2016/11/spark-mesos.png?w=665?w=665" />

spark-mesos


Spark dấn được rất nhiều sự hưởng trọn ứng từ bỏ cộng đồng Big data bên trên quả đât vị hỗ trợ tài năng tính toán thù nkhô giòn cùng các thỏng viện đi kèm có ích nlỗi Spark Squốc lộ (cùng với giao diện dữ liệu DataFrames), Spark Streaming, MLlib (machine learning: classification, regression, clustering, collaborative filtering, với dimensionality reduction) và GraphX (trình diễn thiết bị thị dựa vào kết qủa tính tân oán tuy vậy song).


" data-medium-file="https://ongxuanhong.files.wordpress.com/2015/11/apache-spark-components.png?w=665?w=300" data-large-file="https://ongxuanhong.files.wordpress.com/2015/11/apache-spark-components.png?w=665?w=588" />

Apache Spark components


Những Điểm lưu ý gía bên cạnh tốc độ tính toán thù nhanh

Sự solo gỉan: trong những chỉ trích thường chạm mặt ở Hadoop đó là việc phức hợp trong qúa trình cải tiến và phát triển, tuy nhiên đấy là một trong số những phương pháp tính toán thù đối kháng gỉan với hiệu qủa gíup tăng tốc độ xử lý của hệ thống. Tgiỏi vị đòi hỏi người dùng bắt buộc đọc rạch ròi về MapReduce cùng lập trình Java, Spark có mặt nhằm gíup mọi người tiếp cận với công nghệ tính toán tuy nhiên tuy nhiên dễ dãi hơn không ít. Người sử dụng chỉ việc một vài ba kỹ năng cơ bản về database cùng cùng với xây dựng Pythuôn giỏi Scala là rất có thể áp dụng được.

Xem thêm: Một Số Game Android Chơi Qua Bluetooth Trò Chơi Multiplayer Trong Chế Độ


Độc lập với các công ty hỗ trợ dịch vụ Hadoop: Hầu không còn những công ty cung cấp các dịch vụ Hadoop những hỗ trợ Spark. Điều này có nghĩa Spark ko nhờ vào vào các công ty cung ứng này. Nếu bạn muốn biến hóa công ty cung ứng hình thức, ta chỉ cần lấy hệ thống Spark qua nhà cung ứng bắt đầu cơ mà không lo sợ vấn đề mất mát công bố.

Một vài thống kê trúc vị

62% số bạn điều tra sử dụng Spark cùng với HDFS, 46% sử dụng cùng với các hệ quản lí trị DataBase nhỏng Stavrou, HBase, Hive, Tachyon, 41% đang thực hiện với Kafka, cùng 29% đang áp dụng cùng Amazon S3.Đối với hệ quản trị cluster, 56% đang làm việc tự do Spark, 42% thực hiện YARN, với 26% áp dụng Apabịt Mesos.Đối với ngữ điệu lập trình, 88% áp dụng Scala, 44% sử dụng Java, và 22% sử dụng Pydong dỏng.Mức độ quyên tâm của bạn về Spark: 91% về tốc độ tính tân oán, 77% về việc dễ xây dựng, 71% về câu hỏi dễ dàng phát triển, 64% về những lao lý phân tích tài liệu tiên tiến và phát triển, 52% về real-time streaming.Sử dụng Spark bên trên 206 khối hệ thống EC2 để thu xếp 100TB dữ liệu chỉ tốn 23 phút ít. Trong lúc đó, kỉ lục trước đây trên Hadoop thực hiện MapReduce trên 2,100 máy tính xách tay đề nghị tiêu tốn 72 phút. Điều này có nghĩa rằng Spark thu xếp dữ liệu nkhô cứng vội 3 lần Hadoop nhưng mà chỉ thực hiện thấp hơn 10 lần số máy vi tính.Các nhân tố được sử dụng trong Spark: 69% sử dụng Spark Squốc lộ, 62% sử dụng Dataframes, 58% áp dụng MLib + GraphX, 58% thực hiện Streaming.
" data-medium-file="https://ongxuanhong.files.wordpress.com/2015/11/top-10-industries-using-spark.jpg?w=300" data-large-file="https://ongxuanhong.files.wordpress.com/2015/11/top-10-industries-using-spark.jpg?w=665&h=375" />Top 10 industries using spark" data-medium-file="https://ongxuanhong.files.wordpress.com/2015/11/shark-vs-sparksql.jpg?w=300" data-large-file="https://ongxuanhong.files.wordpress.com/2015/11/shark-vs-sparksql.jpg?w=665&h=514" />Shark vs SparkSQLKết luận

Đối cùng với các bên cung ứng gỉai pháp, Apabít Spark là một trong những lá bài bác đặc trưng vào câu hỏi sử dụng các technology cốt tử nhằm xây đắp đều data warehouses tân tiến. Đây là 1 phân khúc thị trường mập trong nghề IT có khả năng bỏ túi sản phẩm tỉ đô lợi nhuận mỗi năm.

Spark giới thiệu một có mang mới mang các tiềm ẩn sau đây đó là data lakes. Đây là 1 trong những vị trí tàng trữ một lượng tài liệu kếch xù với tương đối nhiều định hình không giống nhau và được truy tìm vấn để giải pháp xử lý Lúc cần thiết. Data lakes giới thiệu một framework thương thơm mại rất có thể tạo nên một môi trường thiên nhiên tàng trữ vô hạn ngẫu nhiên các loại dữ liệu như thế nào.

Spark Demo


Danh mục Khái niệm Thẻ apache spark,big data Để lại phản hồi Điều phía bài bác viết
Hadoop là gì
Google File System – Tìm hiểu về kiểu cách làm chủ đại lý tài liệu của Google

Viết một bình luận Hủy

Bình luận

TênTlỗi năng lượng điện tửTrang web

Lưu tên của tớ, gmail, với trang web vào trình coi ngó này đến lần phản hồi tiếp đến của mình.

Xem thêm: Commodities Là Gì ? Các Loại Thị Trường Hàng Hóa Các Loại Thị Trường Hàng Hóa


Tìm tìm cho:
Hành Trang Lập Trình

Thẻ


.htaccess.net coreangularangular cliangularjsapabít sparkAWSAWS LambdaBAbig datablockchainBootstrapBootstrap 4Business AnalystCC#C++ccucloud computingCSSDapperelasticsearchES6gitHadoopHọc lập trìnhJavajavascriptLaravelNgôn ngữ lập trìnhNgôn ngữ lập trình sẵn webNodeJSNPMOwnCloudphppythonReactJSReact Nativetìm kiếm engineServerlesssqlTrí tuệ nhân tạotypescriptTự học Lập trìnhwordpress
*
Đây là CMS vị bao gồm tôi code, Ko cần sử dụng Wordpress, Ko PHPhường, không dính virut, CLOUD với kiến thiết web chỉ sử dụng kéo thả, CSS ...