本手冊主要講述礦場運維中涉及到的相關點,運維人員需熟悉并掌握礦機的基本維護,包括系統升級、重置、復位、TF卡程序恢復,還需掌握簡單的故障判斷,如高溫保護、風扇故障、網絡故障等。運維人員還需對礦場的電力、網絡、環境等有一定的了解認識并定期做相應的檢查工作,發現問題及時改善可降低礦機故障率。
(一)日常定檢
(二)上下架事項
(三)礦機故障排查表
(四)日常運維巡檢表
(一)日常定檢
1、算力檢查
1.1 每兩小時檢查一遍礦機算力情況,現場可用批量管理軟件BTC Tools查看或登錄對應的礦池網站查看算力情況。BTC Tools可批量設置礦池礦工并實時查看算力溫度等。建議安裝Google Chrome瀏覽器并設置為默認,即可直接雙擊掃描到的礦機進入后臺無需填寫用戶名密碼。如礦機后臺root密碼已改,需要在瀏覽器填寫用戶名密碼時,可在BTC Tools軟件右上角點擊“設置”更改為新的密碼即可,下載BTC Tools軟件點擊。
圖1 BTC Tools工具界面
說明:點擊+添加IP網段后點擊掃描礦機即可
1.2 定期檢查礦機的礦池礦工信息是否有錯誤或遺漏,除了主礦池其余2個備用礦池都需要填上。建議更改礦機默認root密碼,且不要下載非官方固件和超頻固件升級,以免被惡意固件非法篡改礦池礦工??捎肁PMinerTool軟件批量修改密碼,該軟件也可掃描管理礦機,下載APMinerTool軟件點擊。
圖2 APMinerTool軟件界面
說明:出算力的礦機才可掃描到,0算力礦機會出現掃描不到的情況
1.3 發現算力異常的礦機及時排查解決,現場未能處理的下架維修或返廠處理。
2、電力檢查
2.1 每天用萬用表檢查礦機PDU插座電壓是否在正常值220V±10% 范圍,電壓過高過低會導致運行不穩定或不能工作甚至可能會燒毀電源或礦機,發現電壓異常需及時通知電工處理。
2.2 每天查看配電柜三相電流表,如偏差15%以上則通知電工檢查三相負載是否均衡,三相不平衡可能會導致某一項電壓升高,需要把礦機盡量平均分配到三相回路中,不要集中擺放在某一相回路。
圖3 配電柜三相電壓表、電流表指示
2.3 定期檢查礦機是否漏電,部分礦機會因接地未做好造成外殼帶電,在礦機運行時操作容易損壞控制板和運算板。
方法一:礦機運行時用萬用表測量礦機外殼和貨架裸露金屬間是否有電壓,有電壓則接地沒有做好(此方法要求礦機外殼未和貨架金屬接觸在一起)
方法二:礦機運行時測量礦機網口金屬罩和礦機外殼間是否有電壓,有電壓則接地沒有做好(此方法要求礦機的網口金屬罩未和礦機控制板面板接觸在一起)。接地沒有做好需要電工及時處理。
圖4 漏電檢測圖示
說明:測量電壓值建議在1V以下,超過則需做好接地
2.4 定期檢查廠房貨架以及礦機插座是否有接地(要求接地電阻<4Ω),如未接地或接地不牢靠則通知專業電工及時做好接地,運維過程中如發現觸摸礦機電源外殼手經常有麻感,需檢查是否接地不良或未接地。
圖5 貨架接地和模數化插座接地
說明:貨架接地位置需打磨去除絕緣油漆
2.5 定期檢查電線電纜是否有老化情況,用紅外溫度儀檢測配電柜的斷路器、線纜、銅排及各接頭溫度有無異常,如銅排或銅鼻子發熱達70°以上,需通知電工及時處理。
2.6 礦場應盡量避免頻繁停電需有計劃停電,停電時應先由貨架上最小空開斷電再一級一級往上到總空開的順序關電。上電時應確保貨架接礦機的空開已全部關閉,由總空開一級級往下送電,避免電壓浪涌瞬間沖擊損壞礦機。
3、網絡檢查
3.1 定期檢查備用的寬帶線路是否正常,可從路由器后臺或筆記本接備用網線檢查。挖礦用網和生活用網需單獨分開,避免生活區訪問不明網址涉及網絡安全,也防止下載觀看視頻占用網速影響礦機與礦池連接致算力波動,特殊情況需要共用廠房網絡時,需網管在路由器或交換機端把生活區的IP做限速且不要訪問不明網站。
3.2 定期Ping當前礦機使用的礦池延遲是否穩定,如延遲高達100ms以上則需要排查內外網,局域網由網管自行排查是否網絡設備故障,外網則需要寬帶運營商排查設備線路等,延遲過高會導致算力波動。Ping功能選項位于Network-Diagnostics。礦機0算力排查網絡時Ping不通當前使用的礦池地址則屬網絡故障。
圖6 礦機后臺網絡界面
說明:填入當前礦機使用的礦池網址點擊Ping即可查看延遲
3.3 每天檢查網絡設備的溫度,設備外殼達到45度以上的需要換位置或安裝風扇等方式散熱。網絡設備和網線不要放于礦機出風口暖風處,網絡設備CPU溫度過會高影響穩定性甚至死機。主網線建議使用質量較好的網線,當超過15分鐘斷網時礦機應關電,礦機功耗和算力是對應關系如算力不足或0算力時耗電量會相應減少。
4、溫濕度檢查
4.1 高溫處理
每天測量礦機進風口位置溫度,盡量控制在10至25℃。如礦機進風口附近溫度超過30℃以上則容易引起高溫保護0算力,需及時降低環境溫度??蓹z查礦機位置是否有暖風回流情況,需要注意某些第三方電源的小風扇和礦機風扇風向相反造成溫度疊加,這時需要重新擺放電源方向。高溫保護0算力的礦機硬件沒有損壞,降低環境溫度后開機即可恢復算力,礦場需盡快制定方案降低環境溫度,如安裝水簾、安裝負壓風機、做冷熱隔離(用擋板等材料擋住暖風防止回流到進風口冷風區)。
圖7 左:廠房負壓風機 右:貨架冷熱隔離
4.2 低溫處理
礦機運行要求的環境溫度為0-40℃,但在寒冷的北方地區(如內蒙、新疆等地),冬季低溫會達到零下10~20℃。部分螞蟻礦機(如17E、17+系列)在低溫環境下容易引起燒板、掉板、掉芯片、日志提示低溫保護、高溫保護、溫感失敗等問題。低溫地區礦機上架請點擊此處查看 低溫地區礦機上架及運維指導。
4.3 濕度處理
每天測量礦機進風口附近濕度,查看貨架、礦機、電源線等位置有無結露現象,濕度超過65%RH則需降低。水簾與貨架距離過近也導致濕度增加,一般距離在2-3米左右不要過近也不要過遠(距離過遠會減弱降溫效果)。長期濕度過大且周邊有大型化工廠空氣質量差會加速運算板腐蝕甚至報廢,可按需要減少水簾水量降低進風濕度。建議礦機不要在鹽堿地附近或海邊附近運行,容易導致礦機氧化腐蝕報廢。
圖8 運算板腐蝕
4.4 水簾使用注意事項
每天檢查水簾有無異常漏水到廠房內部地面上、水是否均勻流動、是否有白色堿性物殘留堵塞,水簾堵塞或水流分布不均會降低效果影響溫度應定期清潔水簾。還需定期檢查水簾的蓄水池水量是否正常,抽水泵有無異常。
圖9 左:廠房水簾 右:如周邊灰塵蟲子柳絮等較多時,可在水簾位置加一層紗網阻擋
5、環境檢查
5.1 每天檢查廠房負壓風機運轉情況,查看是否有慢轉停轉的。礦場需清潔到位,做到地面無灰塵紙屑。
5.2 每月定期檢查礦機灰塵情況,可拆開礦機前風扇查看,如發現大量灰塵柳絮等堆積在散熱片位置堵風道導致高溫保護需及時清理。用防靜電軟毛刷輕輕刷掉灰塵,注意不要用太硬的刷子也不要太用力,否則易導致散熱片脫落掉出,毛刷處理完后用風機吹走灰塵。(注意拆風扇時只需拆風扇上的4顆螺絲,不拆機身上帶防拆標簽的螺絲)
圖10 拆前風扇清灰示意 散熱片灰塵示意圖
5.3 北方礦場普遍風沙塵土大,每星期檢查防塵網情況,定期用吸塵器等工具清理防塵網。如廠房灰塵沙土大但未安裝防塵網防護的,需及時做好相應防塵措施。
圖11 吸塵器清理防塵網、礦機附著沙塵
5.4 下雨天注意預防廠房內飄雨或進水影響到礦機,特別門口位置和一些未封閉的區域。
6、外觀檢查
6.1 每天檢查廠房礦機進風口是否有垃圾紙屑堵住,及時清除避免影響風量致高溫保護0算力。
6.2 每天檢查礦機的指示燈是否正常,紅燈異常需處理。查看礦機兩風扇是否在運轉,發現風扇扇葉有破損或不轉的及時更換,也可從礦機后臺Kernel log查看風扇是否故障。更換風扇時注意不要裝反否則風排不出礦機外。
6.3 檢查網線是否有破損不能使用的,電源線是否異常過熱。不推薦使用一分二的電源線容易過載,220V電壓下選擇電源線時建議采購10A或以上,長度在1.5m以內。
(二)上下架事項
1、上架事項
1.1 查看礦機外觀有無劇烈磕碰的痕跡,并晃動礦機是否有散熱片掉出的情況,查看兩風扇外觀是否有破損變形。針對新款的一體機,銅排裸露部分需要查看是否有翹起,翹起會造成掉板等故障,需要恢復到位接觸良好。
1.2 上架前查看排線(風扇、電源6pin、運算板)是否插好到位不得松動,運算板電源6Pin線方向不得插反??刂瓢宀荒苈┎?Pin電源線,會導致運算板燒板報廢,控制板電源線插反也會導致控制板燒板。松動和插反可能會導致燒機。電源線和插座間不要太松動易接觸不良,采購插座和電源線時需注意。
圖1 貨架空開、模數化插座
注意事項:不要采購配合松動的插座和電源線
1.3 在搬拿礦機時要輕拿輕放,禁止直接手提運算板排線或電源線,禁止從高處隨意丟放。請工人搬運礦機時需告知不能亂丟亂放,否則易導致礦機內部運算板上的散熱片和芯片掉落,或撞擊到外側的風扇損壞甚至報廢。
圖2 礦機禁止隨意亂丟亂放
1.4 新機上架后用批量軟件APMinerTool或BTC Tools修改礦池礦工,按需求設置固定IP,確認礦機算力是否正常。單臺礦機上架時,設置為原貨架位置IP。
1.5 批量上架部署礦機時注意規劃好IP以方便后續固定IP地址,DHCP劃分和將要固定的靜態IP錯開。如貨架有100臺礦機,則網關可設置為172.16.1.254,DHCP可設置為172.16.1.101-240,預留的IP(1-100)用于后續固定IP。一般一個貨架采用一個網段管理,批量固定礦機IP地址可用APMinerTool工具“配置IP”選項,教程點擊。
圖3 APMinerTool軟件設置固定IP界面
2、下架注意
2.1 下架前再次確認礦機故障能否在現場恢復正常,一般現場可解決如高溫保護、風扇故障、網絡故障、系統故障(礦場可適當購買一些風扇備用)。盡量減少誤判故障而返回售后正常的機器。風扇故障判斷可從礦機后臺日志Kernel log下拉到最后查看。S9,T9+系列風扇日志里FAN2和FAN5屬對應關系。
圖4 圖中風扇故障判斷為FAN2風扇未插線或故障
2.2 確認IP與實物是否對應避免拿錯。如不能確定礦機IP的可用查找IP軟件IP Reporter直接點擊Start后再按礦機IP鍵或點擊APMinerTool軟件上的“配置IP”選項后按礦機IP按鍵確認。
圖5 查找礦機IP操作
2.3 下架上架礦機前需要先斷電再操作,輕拿輕放禁止手提運算板排線或電源線,禁止從高處隨意丟放。
2.4 如廠房貨架做了冷熱隔離,搬走礦機留空的位置要堵上避免暖風回流。下架的礦機要做好防塵防潮處理,擺放平穩整齊到指定區域,等待現場維修或返廠售后。
圖6 堵上礦機空位防暖風回流
(三)礦機故障排查表
礦機故障原因多種,先從簡單的排查網絡、升級固件、復位重置、檢查排線、更換電源、清理灰塵、降低環境溫度等進行,如未解決還需從電力、環境等方面排查?,F場確實無法解決的返售后處理,大致思路可按如下表格:
(四)日常運維巡檢表
礦場日常運維中需要檢查的項目做好記錄并去做相應改善降低故障率。