普通视图

发现新文章,点击刷新页面。
昨天以前首页

一箩筐的恶心

作者 xrspook
2024年12月22日 09:31

当年今日

离2024年结束还有不到两个星期。就在澳门回归纪念日的那天,单位组织了第1批员工去河源旅游。首先我听说的是车程来回要4个小时,然后我就直接很抗拒了。我很高很讨厌坐那么长时间的车,最重要的是最近几次去旅游在车上导游都要故意制造气氛,搞这样那样的游戏,我非常讨厌那个玩意。车上有两个小时,那两个小时要被这么折磨,这让我更加讨厌这段旅行。车上那么久,不让你休息,不让你睡觉,总要你干那些让人心跳加速的事。2024年余下的时间真的不多了,一大堆的事情还没有完成。虽然说我在单位有些事情也做不了,也是在等待,但是你真的说不准什么时候什么人会找你要什么数据。明明是工作日,又不能时刻准备着,这也就直接让人觉得很焦虑。在路上搞那种游戏,心还要挂在这边。来回4个小时,在河源能有多长时间呢?如果时间也不短,回程的时候已经17点,周五晚上回到单位,超过了18点,我还怎么回家,我还怎么吃饭?选在年末干这种事情让人很反感,赶在周五干这种事情,更加让人反感,最让我反感的是选一个这么远的地方,有那么长的车程,要在车上干那么多我讨厌的事情,还有外加一个让我直接拒绝的原因就是那天刚好是我的生日。为什么我还得干一大堆我不愿意干的事?所以我拒绝了那天去河源。理论上除了12月20日,还有12月27日。12月20日我不去,12月27日我也会选择不去。27日不去的原因除了不再撞上我的生日以外,其它理由都一样。

这一批旅游我选择不去,让我意想不到的是,第一批旅游居然开了两部中巴车。这就意味着单位大部分的人都已经去了。剩下的人不多,悠闲的做完自己手头上的事情,等待着不知道什么到来的任务,结果是12月20日那天,没有遇到特殊的任务。我只是在按部就班的完成日常的操作,然后等待下班。

当我以为一切都算比较顺利结束的时候,回到家里我发现连不上单位的VPN。显然这不是我家网络的问题,因为家里那台电脑连上坚果云和微信没有一点难度,但VPN一直处在初始化状态,意味着连不上。等待好长一段时间之后,VPN会弹出无法连接服务器的提醒。我马上找单位的网管,他说他要晚点才到单位,我猜他去旅游了。晚上9点多的时候我再找他,接着被告知,浪潮修改了交换机的配置,VPN所在的那个网段改变了,我被告知12月20日的晚上我没办法获取到单位的任何数据。如果早知他们有这一出的话,离开单位的时候我就不关闭我办公室的电脑,而且要开启远程连接软件,那么我就可以用家里的电脑里远程控制单位的电脑,做我要做的事,但这一切都太迟了。单位的电脑已经关了,办公室的门也锁了。即便去办公室也未必能找到我办公室的钥匙,这也是一个很荒唐的地方,这种荒唐的事情一直存在。接下来就是单位的电脑要打开,要密码解锁,然后还得打开远程连接软件,这个密码我到底要不要告诉同事呢?那个密码是一个手势操作,实际上连我自己也说不清具体的符号到底是什么东西。这些开门开电脑开软件的操作,叠加起来就意味着走这条路是不行的。如果不是有省储的作业,不需要报进度,数据汇总迟疑两天也无所谓,但现在天天都有省储的作业,天天都得报送数据,我根本获取到获取不到数据,怎么报送呢?浪潮那帮屌丝,专门找我们的人去旅游了,人少了、人不在的时候进行这种网络设置更改,关键是周末浪潮还没人,简直就是D爆了。

这些年的使用下来,让我非常理性清楚地明白到浪潮和华为都是完全不可信的。

就这样,在我39岁生日的那一天晚上,我没办法完成那天应该做的工作,不得不选择完全操不了那个心,直接睡觉。

弱鸡鸡的机房

作者 xrspook
2024年11月27日 09:35

当年今日

某次单位进行电力监控的升级改造,要在半夜的时候断电进行操作。理论上大半夜没有作业,大家都在睡觉,这样的操作影响应该是最低的,但关键是第二天,整个单位的业务瘫痪了。因为浪潮的智能化系统挂掉了。我一整天都不知道是怎么回事,反正就好像单位那个刷车车船排队的网页无论如何打不开,理论上正常的话,单位早上8、9点就会有重车校验的图片以及说明,但是那一天一整天都没有,从调度信息来看,理论上那天是要装船的,但是车船记录都没有。我以为是微信在平板上登录了,但实际上没有,所以我退出了手机的微信。我还清楚记得那天是周日,因为那天傍晚吃过晚饭我回单位,但结果是当我准备从家里离开的时候,打开手机打开微信才发现单位同事找我要前几天的库存数据。一个管网络的人找我要库存数据,你们的数据就没有备份?后来我才知道,因为半夜进行电力改造,但是单位的服务器没有提前手动关掉,所以对服务器来说,等于是突然断电,突然断电导致数据丢失,并且出现莫名其妙的错误。

机房的升级改造之前,浪潮的数据库会出现错误,绝大多数情况都是缓存数据满了,于是新的数据没法写入,这时,你能看到非常明确的提示,接下来,网管同志就知道该如何做了,另外一个情况就是整个系统越用越慢,这种情况谁也说不清到底是怎么回事,但重启一下就好了。

电力监控改造是有计划的,但是管机房的人却少了这个心眼手动把数据库关掉。在机房改造之前,我不知道那里有多少设备、有多少UPS,直到周二我去询问情况的时候才被告知,现在的机房服务器的设备多了很多,UPS也大了很多,但现在的UPS蓄电池只能支撑两个小时。两个小时能做什么?即便机房24小时都有人值守,但可能打个瞌睡都不止两个小时了。

这一次也是一个周日,我们遇到了也说不准到底是什么原因的突然停电,而且是半夜停电,可想而知,服务器们又是突然就挂掉,因为那些UPS甚至无法支撑到天亮就全部耗尽了。停电的那一天,我第一走进机房,看到那些UPS蓄电池的放置场所我的第一个反应是为什么就只放半人高呢,又是周二,我才被告知,那个地板的承受能力也就只能在那个面积上面堆这么多蓄电池了。我感觉那堆蓄电池的占地大概几个平方。虽然堆起来密度已经不小了,但是它们却仅仅能支撑十几米一堵墙那么多服务器两个小时的电量,可能除了那些服务器以外,还包括空调。在改造之前,据说以前的UPS只能支撑20分钟。20分钟,我即便收到信息马上赶过来都赶不上,但2个小时,如果发生在半夜,同样无解。为什么要搞UPS呢?就是为了停电的时候还有个后路,但2个小时的设计等于没有路。既然升级机房的时候你要选择华为分布式的服务器,华为怎么可能不告诉你我至少得有多少UPS蓄电池支持才能持续运行多长时间。
UPS不能保证你一直没有问题,但起码得支撑到管理员到达现场处理或者远程处理。让我觉得非常不可理解的是为什么他们既然知道UPS在启动了、UPS的电量不足了,但是服务器却没有一个逐步保存关闭的程序。突然断电服务器肯定受损,而且那种受损是你无法预知到底损在了哪里。知道没有电,就进行逐步自动关闭,等于是模仿人工应急的操作,能把损害降到最低,为什么就没有这个自动自我关闭的设定呢?是华为自己没有这个设定,还是浪潮根本就没往这方面想?为什么其它的机房不会有这种问题,人家的UPS蓄电池到底用多久?别人的电路到底有多少条?为什么别人能保证当这一条电路不行的时候能切换到另外一条?哪怕都不行了以后,依然能保证服务器里面的东西安全。

周日的停电,除了让我们的生活非常痛苦以外,现在的后遗症很明显,就是浪潮的应用跟数据库出岔子了。整套智能化系统基本属于瘫痪的状态。突然停电算是意外的天灾,但是一次又一次在同一个问题上摔跤,依然没有一个确切的解决方案,这就是人祸。

❌
❌