. : : ClassiClub ForuM : : .

会员中心 论坛帮助 日历事件 标记论坛已读
返回   精品技术论坛 » 技术论坛 » 『软件使用』

『软件使用』: 电脑软件推荐, 电脑软件使用, 经验分享



发表新主题 回复
 
主题工具
esmile
 
esmile 的头像
高级会员
 
资 料:
注册日期: Jul 2002
帖子: 857 声望值: 3
精华: 0,解答: 1
#1 旧 2018-08-10, 23:32:04 默认 【求助】请教几个大数据技术有关的问题
esmile 当前离线  

我们是电力行业的,最近为一个项目写大数据中心配置的报告

看了不少资料,学了不少内容,但是毕竟不是计算机专业的,有下面几个疑问:

Hadoop集群最基本配置方式是采用的是一个个的普通PC服务器(比如说需要10台),每个服务器自带CPU、内存、若干块数硬盘(比如说10块2TB),这些硬盘也不做RAID

问题1
有没有这种做法,就是把所有PC服务器的硬盘集中,采用网络存储技术,比如SAN,然后将逻辑硬盘分配给10台PC服务器使用?

问题2 还是续问题1的假设,但是采用NAS网络接入存储技术,是不是就不可行了?——因为资料说NAS是文件级存储,而Hadoop HDFS是要把数据块写入PC服务器自己的Linux文件系统的

问题3 不管是采用NAS还是SAN,NAS和SAN是要对磁盘做RAID的,同样的存储空间需求,就要使用更多的硬盘,是这样吧?然而HDFS也有自己的冗余机制(每个文件的数据分块保存多个副本,一般3副本),两边的冗余就重复了,是不是基于这一点,就可以说Hadoop集群不需要采用NAS或者SAN?

问题4 不考虑公有云技术(公有云肯定是虚拟化的资源),企业自己建数据中心部署Hadoop集群,Hadoop集群采用虚拟化技术有没有意义?除了部署方便之外有什么其他好处?比分说采用5台比较高性能服务器,每台虚拟出2台虚拟机,一共虚拟出10台。——查资料基本上都说不推荐虚拟化,建议用实体的廉价PC服务器

问题5 如果采用虚拟化,比如采用VMmare vSphere虚拟化技术,这5台服务器,是采用一个个的实体服务器,各带各的硬盘,还是也采用SAN技术,将它们的硬盘集中管理好?

问题可能很外行,大家见笑了,麻烦专家答疑解惑,主要是新能、价格方面有何差别不太了解,不胜感激~~
回复时引用此帖
michael80
 
michael80 的头像
高级会员
 
资 料:
注册日期: May 2011
帖子: 750 声望值: 4
精华: 0,解答: 22
#2 旧 2018-08-11, 00:26:02 默认
michael80 当前在线  

问题1
有没有这种做法,就是把所有PC服务器的硬盘集中,采用网络存储技术,比如SAN,然后将逻辑硬盘分配给10台PC服务器使用?
——可以,san就是用来解决这个问题的,速度更快,扩展更便利。

问题2 还是续问题1的假设,但是采用NAS网络接入存储技术,是不是就不可行了?——因为资料说NAS是文件级存储,而Hadoop HDFS是要把数据块写入PC服务器自己的Linux文件系统的
——在系统层面映射后,系统可以把该存储当作是本机硬盘一样来用。

问题3 不管是采用NAS还是SAN,NAS和SAN是要对磁盘做RAID的,同样的存储空间需求,就要使用更多的硬盘,是这样吧?然而HDFS也有自己的冗余机制(每个文件的数据分块保存多个副本,一般3副本),两边的冗余就重复了,是不是基于这一点,就可以说Hadoop集群不需要采用NAS或者SAN?
——我还是觉得可以集中来做san会更好

问题4 不考虑公有云技术(公有云肯定是虚拟化的资源),企业自己建数据中心部署Hadoop集群,Hadoop集群采用虚拟化技术有没有意义?除了部署方便之外有什么其他好处?比分说采用5台比较高性能服务器,每台虚拟出2台虚拟机,一共虚拟出10台。——查资料基本上都说不推荐虚拟化,建议用实体的廉价PC服务器
——虚拟化后,其实多了一层虚拟系统的消耗,按道理效率更低了,所以大家不推荐虚拟化后再用。

问题5 如果采用虚拟化,比如采用VMmare vSphere虚拟化技术,这5台服务器,是采用一个个的实体服务器,各带各的硬盘,还是也采用SAN技术,将它们的硬盘集中管理好?
——结合3、4的回答,你知道我的建议了。

欢迎拍砖。

另外,建议多出去对标交流看看,闷着头写不好方案。
回复时引用此帖
esmile
 
esmile 的头像
高级会员
 
资 料:
注册日期: Jul 2002
帖子: 857 声望值: 3
精华: 0,解答: 1
#3 旧 2018-08-11, 10:09:03 默认
esmile 当前离线  

引用:
作者: michael80 查看帖子
问题1 有没有这种做法,就是把所有PC服务器的硬盘集中,采用网络存储技术,比如SAN,然后将逻辑硬盘分配给10台PC服务器使用?——可以,san就是用来解决这个问题的,速度更快,扩展更便利。问题2 还是续问题1的假设,但是采用NAS网络接入存储技术,是不是就不可行了?——因为资料说NAS是文件级存储,而Hadoop H......
十分感谢你的回复,其实我们在研究的是能源互联网项目,全国、全世界都在起步探索阶段,我们储备好几年了,没有闭门造车,经常和各种软硬件供货商、集成商交流学习,大面上的基本都了解,由于是跨界融合,不是专业学计算机的,所以有些细节和深入不太拿得准

现在行业的实际应用就是这样,电力的不懂IT的开发部署,IT的不懂电力具体场景,大数据的工具、平台现在不是问题,但是针对电力的大数据应用模型开发依然不行,我们可以很容易找华为、腾讯、阿里给我们提出非常nb的数据中心设计方案,但是我们想知其然还要知其所以然,把主动权掌握在行业自己手里,否则不说应对忽悠,就是点评都做不到

上述不同方式性能、价格优劣其实肯定是SAN磁盘性能好、价格贵,具体差别多少要做具体方案并技术、经济比较,这个不好弄,时间也来不及让做方案然后技术经济比较一遍

Hadoop设计的初衷不就是用普通的廉价商用服务器组成一个稳定可靠、计算能力强大的集群,无需运行在高可靠且昂贵的服务器上,并且设计时已考虑集群规模足够大时,节点故障是常态,照此原则,还需要将机器磁盘集中做SAN吗,而且SAN磁盘冗余一遍,Hadoop副本机制又冗余一遍,不是浪费吗

此帖于 2018-08-11 10:26:54 被 esmile 编辑. .
回复时引用此帖
michael80
 
michael80 的头像
高级会员
 
资 料:
注册日期: May 2011
帖子: 750 声望值: 4
精华: 0,解答: 22
#4 旧 2018-08-11, 12:55:07 默认
michael80 当前在线  

你的回答简单来说就是成本与效率的问题,低成本,对应略高的故障率,像谷歌,为了能转向用普通服务器,花了心思后达到了,但对你来说,你要评估一下自己的团队能否做得到。
回复时引用此帖
莫涵
 
莫涵 的头像
核心会员
 
资 料:
注册日期: Oct 2004
帖子: 2,058 声望值: 3
精华: 0,解答: 10
#5 旧 2018-08-11, 12:57:53 默认
莫涵 当前离线  

1 现在都是x86 分布式存储软件 软件定义存储
回复时引用此帖
esmile
 
esmile 的头像
高级会员
 
资 料:
注册日期: Jul 2002
帖子: 857 声望值: 3
精华: 0,解答: 1
#6 旧 2018-08-11, 18:46:40 默认
esmile 当前离线  

问题1不纠结了
大数据的价值密度本来就并不高,大部分数据可能都是垃圾数据,选择高端的SAN阵列来保存这样的数据并不划算
回复时引用此帖
esmile
 
esmile 的头像
高级会员
 
资 料:
注册日期: Jul 2002
帖子: 857 声望值: 3
精华: 0,解答: 1
#7 旧 2018-08-12, 10:10:46 默认
esmile 当前离线  

引用:
作者: michael80 查看帖子
问题2 还是续问题1的假设,但是采用NAS网络接入存储技术,是不是就不可行了?——因为资料说NAS是文件级存储,而Hadoop HDFS是要把数据块写入PC服务器自己的Linux文件系统的
——在系统层面映射后,系统可以把该存储当作是本机硬盘一样来用。
哥们,你说的不对吧

SAN是通道存储,分给服务器的逻辑磁盘,对于服务器而言是裸设备,服务器的操作系统可以对其格式化、分区,可以安装操作系统,并引导开机运行

NAS的是文件共享存储,映射给服务器之后,服务器不能对其格式化、分区
回复时引用此帖
ASBai
 
ASBai 的头像
热心会员
 
资 料:
注册日期: May 2005
帖子: 4,315 声望值: 5
精华: 18,解答: 24
#8 旧 2018-08-12, 19:40:13 默认
ASBai 当前离线  

引用:
作者: esmile 查看帖子
问题1
有没有这种做法,就是把所有PC服务器的硬盘集中,采用网络存储技术,比如SAN,然后将逻辑硬盘分配给10台PC服务器使用?
可以,但是没意义,分布式存储比起 SAN 最大的价值就是:1.数据高可靠;2.扩展灵活;3.廉价。

引用:
作者: esmile 查看帖子
问题2
问题2 还是续问题1的假设,但是采用NAS网络接入存储技术,是不是就不可行了?——因为资料说NAS是文件级存储,而Hadoop HDFS是要把数据块写入PC服务器自己的Linux文件系统的
引用:
作者: esmile 查看帖子
哥们,你说的不对吧

SAN是通道存储,分给服务器的逻辑磁盘,对于服务器而言是裸设备,服务器的操作系统可以对其格式化、分区,可以安装操作系统,并引导开机运行

NAS的是文件共享存储,映射给服务器之后,服务器不能对其格式化、分区
是可以的,HDFS 据我所知不需要裸分区。BTW:Hadoop 是性能实在不咋地,你确定要用?

引用:
作者: esmile 查看帖子
问题3
不管是采用NAS还是SAN,NAS和SAN是要对磁盘做RAID的,同样的存储空间需求,就要使用更多的硬盘,是这样吧?然而HDFS也有自己的冗余机制(每个文件的数据分块保存多个副本,一般3副本),两边的冗余就重复了,是不是基于这一点,就可以说Hadoop集群不需要采用NAS或者SAN?
是的,不过 HDFS 也可以设置为单副本。只靠底层 SAN、NAS 的冗余,但明显这样更贵,而且扩展性也差。

引用:
作者: esmile 查看帖子
问题4
不考虑公有云技术(公有云肯定是虚拟化的资源),企业自己建数据中心部署Hadoop集群,Hadoop集群采用虚拟化技术有没有意义?除了部署方便之外有什么其他好处?比分说采用5台比较高性能服务器,每台虚拟出2台虚拟机,一共虚拟出10台。——查资料基本上都说不推荐虚拟化,建议用实体的廉价PC服务器
没什么意义,也不一定方便,只有机器很多的时候(比如:几千节点)才有意义:能够以重用、合并的形式节省一部分资源和能源。

引用:
作者: esmile 查看帖子
问题5
如果采用虚拟化,比如采用VMmare vSphere虚拟化技术,这5台服务器,是采用一个个的实体服务器,各带各的硬盘,还是也采用SAN技术,将它们的硬盘集中管理好?
5 个节点就不要搞什么虚拟化了。。。

PS:我记得十几年前就有智能电网项目拉我去做顾问了(记得当时的方案是用 tilera 做智能电表的一级接入端,然后把所有数据实时汇总到某水电站附近的计算中心?),结果到现在还没搞定啊这个


baiy.cn
俺的原创免费作品站
回复时引用此帖
esmile
 
esmile 的头像
高级会员
 
资 料:
注册日期: Jul 2002
帖子: 857 声望值: 3
精华: 0,解答: 1
#9 旧 2018-08-13, 09:44:14 默认
esmile 当前离线  

周末查资料看书找计算机专业的同学请教研究了两天 基本有点思路了

引用:
可以,但是没意义,分布式存储比起 SAN 最大的价值就是:1.数据高可靠;2.扩展灵活;3.廉价。
是这样 Hadoop分布式并行计算的初衷就是这个,特别是廉价这一条,我认为是最重要的

引用:
是可以的,HDFS 据我所知不需要裸分区。BTW:Hadoop 是性能实在不咋地,你确定要用?
NAS映射给服务器的逻辑磁盘,服务器能对其分区 格式化吗 ——虽然这个和我的应用不一定有关 我只是想搞清楚实际情况
比如一个Hadoop DataNode需要10x2TB硬盘,SAN很容易通过通道映射过去了,NAS系统也能很方便给每个DataNode分配10个逻辑磁盘吗
不管Hadoop HDFS需不需要裸分区,集中存储都和分布式并行计算的原则相悖
Hadoop 是性能实在不咋地,但是它也是大数据处理的事实标准啊


引用:
是的,不过 HDFS 也可以设置为单副本。只靠底层 SAN、NAS 的冗余,但明显这样更贵,而且扩展性也差。
HDFS设置三副本,除了冗余,还有分布式并行计算的考虑,需要同一份数据计算时,可以从多个副本读取


引用:
没什么意义,也不一定方便,只有机器很多的时候(比如:几千节点)才有意义:能够以重用、合并的形式节省一部分资源和能源。
虚拟化的核心思想是资源池化,目的在于提高硬件资源的利用率,对大数据而言,采用虚拟化除了运维人员安装部署大数据分布式集群方便,此外没有其他好处
几千个节点的Hadoop集群如果用虚拟化,运行效率之低可想而知
网上有调研过的,虽然阿里 腾讯提高给用户的都是虚拟化的资源,但是自己用的大数据系统,都是运行在实体机上的
因为:
1)资源利用率已经很高时 虚拟化没有意义
分布式并行计算的起源就是因为少数计算机的计算能力用满了都不足以快速完成计算任务,所以通过集群分解任务然后让多台计算机并行计算,如果分布式集群每个服务器资源利用率都在70-80%以上了,虚拟化还有什么意义,直接用实体服务好了,还省去了Hypervisor虚拟化不可避免的硬件损耗
2)集中存储和分布式并行原则相悖
分布式并行计算的设计原则就是让计算(CPU、内存)贴近数据(磁盘),减少数据来回移动,以应对MapReduce分布式计算时的IO风暴。采用虚拟化计算,特别是虚拟前的实体机的计算和存储又是分开的话(比如虚拟系统采用SAN集中存储),带来的问题就是:
——虚拟机要频繁读写存储系统上的数据,这会消耗大量网络带宽,远没有一个个的实体机上CPU和磁盘通过主板IO总线传递来得高效快速
——虚拟机的虚拟网卡要抢占实体机的物理网卡带宽
3)分布式集群虚拟化要增加投资
Hadoop设计的初衷就是用普通的廉价商用服务器组成一个稳定可靠、计算能力强大的集群,无需运行在高可靠且昂贵的服务器上,大家可以去搜搜Google最早研究GFS和MapReduce时采用的服务器简陋到何种程度
如果采用虚拟化,必将带来软硬件成本的大幅增加,因为虽然是普通廉价PC服务器,但是虚拟化后要达到和之前实体服务器类似的性能,虚拟系统的实体主机必然要采用更高性能的服务器,还要采购全套虚拟化软件,如果虚拟系统又采用SAN集中存储,造价又进一步增加


引用:
5 个节点就不要搞什么虚拟化了。。。
5个我只是举例
虽然比不了那些超大规模应用,现在的这个项目,初期底层应用场景采集的数据初步统计预估是每个月4TB,按每个DataNode配10x2TB考虑,头一年就需要12台服务器,以后随着接入的场景增加,数据量会进一步增加
即便按数据冷热进行转移,系统也需要规划3年的存储计算能力


引用:
PS:我记得十几年前就有智能电网项目拉我去做顾问了(记得当时的方案是用 tilera 做智能电表的一级接入端,然后把所有数据实时汇总到某水电站附近的计算中心?),结果到现在还没搞定啊这
你说的那是智能电网的智能用电的一小部分应用 现在的互联网+智慧能源概念比那大多了 想详细了解的话可以搜一下

ps
感谢回复和技术上的启发

此帖于 2018-08-13 11:24:28 被 esmile 编辑. .
回复时引用此帖
billwei
 
billwei 的头像
核心会员
 
资 料:
注册日期: Jan 2002
帖子: 2,048 声望值: 3
精华: 0
#10 旧 2018-08-13, 10:22:13 默认
billwei 当前离线  

现在最需要的其实就是跨界人才。IT行业发展最大的问题是客户不知道该怎么提交他们的需求。

懂业务的不懂IT。经常提一些目前技术无法实现的要求。然后目前技术可以很容易做到的他们不懂所以提不出来。

这就导致沟通成本太高。
回复时引用此帖
esmile
 
esmile 的头像
高级会员
 
资 料:
注册日期: Jul 2002
帖子: 857 声望值: 3
精华: 0,解答: 1
#11 旧 2018-08-13, 11:18:47 默认
esmile 当前离线  

引用:
作者: billwei 查看帖子
现在最需要的其实就是跨界人才。IT行业发展最大的问题是客户不知道该怎么提交他们的需求。

懂业务的不懂IT。经常提一些目前技术无法实现的要求。然后目前技术可以很容易做到的他们不懂所以提不出来。

这就导致沟通成本太高。
没错 现实就是这样 因为IT一直都是热门专业,很容易找到很好的工作,所以我们一直招不到很好的计算机专业的学生,只有自己努力学习
回复时引用此帖
路过
 
路过 的头像
核心会员
 
资 料:
注册日期: Jul 2002
帖子: 3,454 声望值: 3
精华: 2
#12 旧 2018-08-13, 11:59:18 默认
路过 当前在线  

一定要注意存储的读取性能!,切记!


凌风云搜索: www.lingfengyun.com(互联网最大最专业的百度网盘+新浪微盘搜索引擎
回复时引用此帖
ASBai
 
ASBai 的头像
热心会员
 
资 料:
注册日期: May 2005
帖子: 4,315 声望值: 5
精华: 18,解答: 24
#13 旧 2018-08-13, 18:45:39 默认
ASBai 当前离线  

引用:
作者: esmile 查看帖子
NAS映射给服务器的逻辑磁盘,服务器能对其分区 格式化吗 ——虽然这个和我的应用不一定有关 我只是想搞清楚实际情况
比如一个Hadoop DataNode需要10x2TB硬盘,SAN很容易通过通道映射过去了,NAS系统也能很方便给每个DataNode分配10个逻辑磁盘吗
不管Hadoop HDFS需不需要裸分区,集中存储都和分布式并行计算的原则相悖
Hadoop 是性能实在不咋地,但是它也是大数据处理的事实标准啊
1. NAS 可以开 10 个共享点,但 Client 通常不可以格式化。
2. Hadoop 并不是什么事实标准,但可能是上手最简单的。

引用:
作者: esmile 查看帖子
HDFS设置三副本,除了冗余,还有分布式并行计算的考虑,需要同一份数据计算时,可以从多个副本读取
说单副本是因为你假设你已经用了集中存储。你都已经集中存储了,就不需要考虑分布式存储了。再说你三个副本都放在同一个 SAN 或 NAS 上也没有什么“可以从多个副本读取”意义。

引用:
作者: esmile 查看帖子
资源利用率已经很高时 虚拟化没有意义
几千节点或更多时,很难 365x24 保持“资源利用率很高”这个假设前提。这时可能需要将所有任务调度到集群中的 1/3 节点上,关闭其余 2/3 节点来节电,或安排这些节点做一些其它的任务。这不一定需要虚拟化技术(见下文),但虚拟化可能是上手最简单的,就像 Hadoop 一样。

BTW:Hadoop 的性能损失远大于虚拟化。

引用:
作者: esmile 查看帖子
虽然阿里 腾讯提高给用户的都是虚拟化的资源,但是自己用的大数据系统,都是运行在实体机上的
是的,包括 Google 在内也是。不过人家有自己的 Bare Metal 调度方法,近两年也大量使用 k8s+docker 之类的容器化技术。

引用:
作者: esmile 查看帖子
5个我只是举例......头一年就需要12台服务器
一样,量级上没区别。不到上千节点不值得折腾这些调度技术,即使是最入门的虚拟化技术。

引用:
作者: esmile 查看帖子
你说的那是智能电网的智能用电的一小部分应用 现在的互联网+智慧能源概念比那大多了 想详细了解的话可以搜一下
嗯,但就是我说的这些到现在也还没搞好呢吧?起码我几个家里的电表都还没看到一个联网的?话说,我们加煤气表倒是联网了已经,但也不是实时。。。
回复时引用此帖
sharin
 
sharin 的头像
热心会员
 
资 料:
注册日期: Jun 2000
帖子: 14,509 声望值: 5
精华: 7,解答: 276
#14 旧 2018-08-13, 21:00:16 默认
sharin 当前离线  

上集群的话,省存储的钱,网络上多花钱。

来来来,找我买网卡和交换机吧。

https://bbs.et8.net/bbs/showthread.php?t=1359395


2018年目标:解答288
________________
回复时引用此帖
发表新主题 回复

主题工具

论坛规则  发帖规则
不可以发表主题
不可以回复帖子
不可以上传附件
不可以编辑自己的帖子
论坛启用 vB 代码
版面启用 表情符号
版面启用 [IMG] 代码
版面禁用 HTML 代码


所有时间均为北京时间, 现在的时间是 16:02:02.

本论坛带宽由迅通网络提供
SSL证书由TrustAsia提供

Copyright © 2000 - 2018 ClassiClub Forum All Rights Reserved.
粤ICP备09123456号