미래기술연구소

Cascade network for detection of coal and ganguein the production context 본문

카테고리 없음

Cascade network for detection of coal and ganguein the production context

I s a a c 2021. 1. 25. 16:46
728x90
반응형

Cascade network for detection of coal and gangue in the production contex
생산 상황에서 석탄과 맥석을 감지하기위한 캐스케이드 네트워크

 

Highlights

•Generalization of CNN is strengthened by combining traditional computer vision.
•CNN의 일반화는 전통적인 컴퓨터 비전을 결합하여 강화됩니다.

SVM as classifier improves accuracy of binary classification of coal and gangue.
•분류기로서의 SVM은 석탄과 맥석의 이진 분류의 정확성을 향상시킵니다.

Cascade improves the performance of coal and gangue detection network.
•Cascade는 석탄 및 맥석 탐지 네트워크의 성능을 향상시킵니다.

•Difference at truncated surface is the basis of classification coal and gangue.
•잘린 표면에서의 차이는 분류 석탄과 맥석의 기초입니다.

Abstract

Online detection of coal and gangue is the key to intelligent separation of coal and gangue which is significant for improving coal mining efficiency and deducing environmental pollution. To improve the detection of coal and gangue under complex conditions, we proposed a cascade network that consists of detector and discriminator. Employing the idea of combining traditional computer vision with deep learning, the multi-channel feature fusion layer was designed in the discriminator. The convolutional neural network (CNN) in the discriminator was optimized from the perspective of loss function and classifier, and a decision function was designed to unify the results of the detector and the discriminator. Finally, we used the visualization to analyze the classification basis during the production by CNN. Our results showed that the cascade network proposed in this study took the characteristics of material truncation as the classification basis, and the detection accuracy reached up to 91.375%.
석탄과 맥석의 온라인 감지는 석탄과 맥석을 지능적으로 분리하는 핵심이며, 이는 석탄 채굴 효율성을 개선하고 환경 오염을 추론하는 데 중요합니다. 복잡한 조건에서 석탄과 맥석의 검출을 개선하기 위해 검출기와 판별기로 구성된 캐스케이드 네트워크를 제안했습니다. 전통적인 컴퓨터 비전과 딥 러닝을 결합하는 아이디어를 채택하여 다중 채널 기능 융합 레이어가 판별 기에서 설계되었습니다. 판별 기의 CNN (Convolutional Neural Network)은 손실 함수와 분류기의 관점에서 최적화되었으며, 검출기와 판별 기의 결과를 통합하기 위해 결정 함수를 설계했습니다. 마지막으로 시각화를 사용하여 CNN에서 제작하는 동안 분류 기준을 분석했습니다. 우리의 결과는 본 연구에서 제안한 캐스케이드 네트워크가 재료 절단의 특성을 분류 기준으로 삼았으며 검출 정확도는 최대 91.375 %에 도달했습니다.

 

Graphical abstract

Keywords

Coal and gangue detection 석탄 및 맥석 감지
Cascade network 캐스케이드 네트워크
Image processing 이미지 처리
Visualization 시각화

1. Introduction

Separation of coal and gangue is the key to efficient and clean utilization of coal [1]. In this context, mineral sorting technology based on computer vision has been the focus of research in recent years [2]. The use of image processing to recognize coal and gangue is safer and more convenient than traditional coal washing methods, since it does not require complex equipment or water for heavy-media-based techniques, and is also preferable to other advanced recognition methods such as X-rays [3] or three-dimensional laser scanning [4].
석탄과 맥석의 분리는 효율적이고 깨끗한 석탄 활용의 핵심입니다 [ 1 ]. 이러한 맥락에서 최근 몇 년간 컴퓨터 비전에 기반한 광물 선별 기술이 연구의 초점이되어 왔습니다 [ 2 ]. 석탄과 맥석을 인식하기 위해 이미지 처리를 사용하는 것은 중매 체 기반 기술을위한 복잡한 장비 나 물이 필요하지 않고 X와 같은 다른 고급 인식 방법보다 선호되기 때문에 기존의 석탄 세척 방법보다 안전하고 편리합니다. -레이 [ 3 ] 또는 3 차원 레이저 스캐닝 [ 4 ].

The spatial characteristics of coal and gangue images by using grey levels, grey histograms, and grey-level co-occurrence matrices were analyzed [[5][6][7]]. An expanded-order co-occurrence matrix based on greyscale interval compression was used to characterize the surface texture differences of coal and gangue [8]. A fractal dimension method to differentiate the surface roughness of coal and gangue was proposed [9]. Based on the above characterization methods, classification models such as support vector machine and artificial neural network were introduced to class the feature vectors extracted from the coal and gangue images [[10][11][12][13]]. These researches mainly focus on classifying the image of coal and gangue by using traditional image processing and classical machine learning algorithms. The difficulty of this solution, (i.e., employing traditional image processing to manually extract features and classifying these features based on classical machine learning algorithms), lies in finding reasonable and effective feature values that can adapt to complex production context.
그레이 레벨, 그레이 히스토그램, 그레이 레벨 동시 발생 행렬을 사용하여 석탄과 맥석 이미지의 공간적 특성을 분석했습니다 [ [5] , [6] , [7] ]. 석탄과 맥석의 표면 텍스처 차이를 특성화하기 위해 그레이 스케일 간격 압축을 기반으로 한 확장 순서 동시 발생 매트릭스가 사용되었습니다 [ 8 ]. 석탄과 맥석의 표면 거칠기를 구별하기위한 프랙탈 차원 방법이 제안되었습니다 [ 9 ]. 위의 특성화 방법을 기반으로 석탄 및 맥석 이미지에서 추출한 특징 벡터를 분류하기 위해 서포트 벡터 머신 및 인공 신경망과 같은 분류 모델을 도입했습니다 [ [10] , [11] ,[12] , [13] ]. 이러한 연구는 주로 전통적인 이미지 처리 및 고전적인 기계 학습 알고리즘을 사용하여 석탄과 맥석의 이미지를 분류하는 데 중점을 둡니다. 이 솔루션의 어려움 (즉, 기존 이미지 처리를 사용하여 수동으로 특징을 추출하고 고전적인 기계 학습 알고리즘을 기반으로 이러한 특징을 분류)은 복잡한 생산 상황에 적응할 수있는 합리적이고 효과적인 특징 값을 찾는 데 있습니다.

In contrast to traditional machine-learning algorithms for image recognition, the most marked characteristic of convolutional neural networks (CNN) is the adoption of the end-to-end training method, in which the original image is directly used as input to automatically extract image features through a deep network and achieve image recognition [14]. Based on AlexNet and VGG-16, two coal and gangue recognition models were established by using 1521 and 240 images, respectively, and both were trained through transfer learning [15,16]. An improved LeNet-5 network using 20,000 coal and gangue images for training was reported, but the samples were in a non-production context [17]. All previous studies showed that CNN as the core algorithm to identify coal gangue from image is effective. Since coal and gangue are randomly distributed on the conveyor belt, it is not only necessary to design a classification model, but also to detect the localization of the objects. Therefore, a hierarchical framework for coal and gangue detection was proposed, and the samples of training datasets were collected from three different regions [18]. However, previous studies mainly focus on laboratory condition, and the training images taken in laboratory is easy to distinguish the background and target compared with image taken in actual industrial production. U-Net was a good method for achieving pixel-wise segmentation when it was applied to segment gangue from raw coal images collected under complex conditions [19]. However, the obvious weakness of semantic segmentation algorithms is the large workload of labeling training dataset.
이미지 인식을위한 기존의 기계 학습 알고리즘과 달리, 컨볼 루션 신경망 (CNN)의 가장 두드러진 특징은 원본 이미지를 입력으로 직접 사용하여 이미지를 자동으로 추출하는 end-to-end 학습 방법을 채택한 것입니다. 심층 네트워크를 통해 기능을 제공하고 이미지 인식을 달성합니다 [ 14 ]. AlexNet과 VGG-16을 기반으로 두 개의 석탄 및 맥석 인식 모델은 각각 1521 및 240 개의 이미지를 사용하여 설정되었으며 둘 다 전이 학습을 통해 훈련되었습니다 [ 15 , 16 ]. 훈련을 위해 20,000 개의 석탄과 맥석 이미지를 사용하는 개선 된 LeNet-5 네트워크가보고되었지만 샘플은 비 생산 컨텍스트에있었습니다 [ 17]. 이전의 모든 연구에 따르면 이미지에서 석탄 맥석을 식별하는 핵심 알고리즘 인 CNN이 효과적이라는 사실이 밝혀졌습니다. 석탄과 맥석이 컨베이어 벨트에 무작위로 분포되어 있기 때문에 분류 모델을 설계 할뿐만 아니라 물체의 위치 파악도 필요합니다. 따라서 석탄 및 맥석 탐지를위한 계층 적 프레임 워크가 제안되었으며 훈련 데이터 세트의 샘플은 세 지역에서 수집되었습니다 [ 18]. 그러나 이전 연구는 주로 실험실 조건에 초점을 맞추고 있으며, 실험실에서 촬영 한 교육 이미지는 실제 산업 생산에서 촬영 한 이미지에 비해 배경과 대상을 쉽게 구분할 수 있습니다. U-Net은 복잡한 조건에서 수집 된 원시 석탄 이미지에서 맥석을 세그먼트에 적용했을 때 픽셀 단위 분할을 달성하는 좋은 방법이었습니다 [ 19 ]. 그러나 의미 론적 분할 알고리즘의 명백한 약점은 레이블링 훈련 데이터 세트의 작업량이 많다는 것입니다.

The deficiencies of coal and gangue image detection research are summarized in two main problems:
석탄 및 맥석 이미지 감지 연구의 결함은 두 가지 주요 문제로 요약됩니다.

First, due to the fact that experiments are generally carried out under laboratory conditions, which not only has the defect of insufficient samples, but more importantly, the actual industrial context is far more complex than the laboratory context. There is no doubt that small training dataset size is more likely to cause model overfitting [20]. In actual production, coal and gangue are mixed and diffused together by the front-end loader mining equipment, and the surfaces of the coal and gangue in practice are inevitably covered with dark and/or wet coal slime, which naturally affects image quality. Therefore, the experimental results cannot be used for directly guide industrial production. The coal and gangue were analyzed for four surface contamination conditions [21]; and a systematic analysis of the characteristic values of coal and gangue images under different illuminations was conducted [22]. All of these studies point out that the accuracy of recognition is influenced to a certain degree by pollution on the object surface and the environment of image acquisition. Therefore, it is necessary to use samples in the production context for research and to test model in combination with actual production.
첫째, 실험은 일반적으로 실험실 조건에서 수행되기 때문에 샘플 부족의 결함뿐만 아니라 더 중요한 것은 실제 산업 상황이 실험실 상황보다 훨씬 더 복잡하다는 것입니다. 훈련 데이터 세트 크기가 작을수록 모델 과적 합을 유발할 가능성이 높다는 것은 의심의 여지가 없습니다 [ 20 ]. 실제 생산에서 석탄과 맥석은 프론트 엔드 로더 채굴 장비에 의해 혼합 및 확산되며 실제로 석탄과 맥석의 표면은 어둡거나 젖은 석탄 슬라임으로 불가피하게 덮여 자연적으로 이미지 품질에 영향을 미칩니다. 따라서 실험 결과는 산업 생산을 직접 안내하는 데 사용할 수 없습니다. 석탄과 맥석은 네 가지 표면 오염 조건에 대해 분석되었습니다 [ 21]; 그리고 다른 조명 하에서 석탄과 맥석 이미지의 특성 값에 대한 체계적인 분석이 수행되었습니다 [ 22 ]. 이 모든 연구는 인식의 정확성이 물체 표면의 오염과 이미지 획득 환경에 의해 어느 정도 영향을 받는다는 점을 지적합니다. 따라서 연구를 위해 생산 상황에서 샘플을 사용하고 실제 생산과 결합하여 모델을 테스트해야합니다.

Second, though CNN has great feature extraction capability, it is not clear what characteristics of coal and gangue surface the network has learned independently. The interpretability of CNN is also a research focus for deep learning researchers [23,24]. Analyzing the features extracted from CNN is helpful to understand the mechanism of CNN in coal and gangue recognition, and also provides a foundation for optimizing the model and studying macroscopic surface characteristics of coal in future work.
둘째, CNN은 뛰어난 특성 추출 기능을 가지고 있지만 네트워크가 독립적으로 학습 한 석탄 및 맥석 표면의 특성은 명확하지 않습니다. CNN의 해석 가능성은 딥 러닝 연구자들의 연구 초점이기도합니다 [ 23 , 24 ]. CNN에서 추출한 특성을 분석하는 것은 석탄 및 맥석 인식에서 CNN의 메커니즘을 이해하는 데 도움이되며 모델을 최적화하고 향후 작업에서 석탄의 거시적 표면 특성을 연구하기위한 토대를 제공합니다.

This study presents a new method that enables the development of a model for coal and gangue detection based on the network cascade concept. A detector and discriminator were constructed in the detection model. Based on the idea of combining traditional computer vision with deep learning, the discriminator was improved to take into account the characteristics of coal and gangue to make the final cascade detection network more suitable for identifying them. Finally, the samples in the production context were collected for training and testing, and the features extracted by CNN were visualized. Visualization results showed that the cascade network proposed in this study took the characteristics of material truncation as the classification basis, and the test results obtained with cascade network has been greatly improved compared to a single detector.
본 연구는 네트워크 캐스케이드 개념을 기반으로 석탄 및 맥석 탐지 모델을 개발할 수있는 새로운 방법을 제시합니다. 검출기 및 판별 기는 검출 모델에서 구성되었습니다. 전통적인 컴퓨터 비전과 딥 러닝을 결합한다는 아이디어를 기반으로 식별기가 개선되어 석탄과 맥석의 특성을 고려하여 최종 캐스케이드 감지 네트워크를 식별하는 데 더 적합하게 만들었습니다. 마지막으로 프로덕션 컨텍스트의 샘플을 교육 및 테스트를 위해 수집하고 CNN에서 추출한 기능을 시각화했습니다. 시각화 결과 본 연구에서 제안한 캐스케이드 네트워크는 재료 절단의 특성을 분류 기준으로 삼았으며,

2. Method

2.1. Coal and gangue detection network based on cascade
2.1 . 캐스케이드 기반의 석탄 및 맥석 탐지 네트워크

Object detection widely used in academic and industry has generally gone through two periods [25]:
학계 및 산업계에서 널리 사용되는 물체 감지는 일반적으로 두 기간을 거쳤습니다 [ 25 ] :

Period I: Traditional image processing technology (e.g. watershed algorithm and sliding detection window) is used to separate foreground from background, and a classifier (e.g. Support Vector Machine, Naive Bayes and Artificial Neural Network) is trained based on the extracted features (e.g. color and texture) of foreground [13]. Typical detector such as Histogram of Oriented Gradients (HOG) and Deformable Part-based Model (DPM) are still applied in the pedestrian detection [25].
기간 I : 전통적인 이미지 처리 기술 (예 : 유역 알고리즘 및 슬라이딩 감지 창)을 사용하여 전경과 배경을 분리하고, 추출 된 기능 (예 : 색상 및 질감) 전경 [ 13 ]. Histogram of Oriented Gradients (HOG) 및 Deformable Part-based Model (DPM)과 같은 일반적인 감지기는 보행자 감지에 여전히 적용됩니다 [ 25 ].

Period II: The establishment of object detection network based on deep learning mainly includes two categories. The first is the two-stage detectors (e.g. R-CNN series networks), which start with the extraction of a set of object proposals by selective search, and then each proposal is fed into a CNN to predict the presence of an object [25]. The second is the one-stage detectors (e.g. YOLO series networks), which divide the image into regions and predicts bounding boxes and probabilities for each region simultaneously [26].
기간 II : 딥 러닝 기반의 물체 감지 네트워크 구축에는 크게 두 가지 범주가 포함됩니다. 첫 번째는 2 단계 탐지기 (예 : R-CNN 시리즈 네트워크)로, 선택적 검색을 통해 일련의 객체 제안을 추출한 다음 각 제안을 CNN에 입력하여 객체의 존재를 예측합니다 [ 25 ]. 두 번째는 1 단계 감지기 (예 : YOLO 시리즈 네트워크)로 이미지를 영역으로 나누고 각 영역에 대한 경계 상자와 확률을 동시에 예측합니다 [ 26 ].

In preliminary experiments, it is found that the polluted areas on the conveyor belt (coal slime, water stain etc.) are readily separated into foreground areas using methods of period I (e.g. HOG), moreover, both over- and under-segmentation tends to occur with methods of period I (e.g. watershed algorithm) when dealing with images of multiple materials placed closely together. Due to the above reasons, it is difficult to design a segmentation algorithm for raw coal images with stable results via using traditional methods. By contrast, both two-stage detectors and one-stage detectors in period II can complete the coal and gangue detection for raw coal images with relatively stable results, but accuracy of models obtained by using the existing detector framework directly is unsatisfactory, no matter training model from scratch or fine-tuning. These results are presented in detail in subsection 4.3.
예비 실험에서 컨베이어 벨트의 오염 된 영역 (석탄 슬라임, 물 얼룩 등)은 기간 I (예 : HOG)의 방법을 사용하여 전경 영역으로 쉽게 분리되며, 더욱이 과다 및 과소 분할 경향이 있습니다. 서로 밀접하게 배치 된 여러 재료의 이미지를 처리 ​​할 때 기간 I (예 : 유역 알고리즘)의 방법으로 발생합니다. 위와 같은 이유로 기존의 방법으로는 안정적인 결과를 얻을 수있는 원료탄 영상에 대한 분할 알고리즘을 설계하기가 어렵다. 대조적으로, 기간 II의 2 단계 감지기와 1 단계 감지기는 상대적으로 안정적인 결과로 원시 석탄 이미지에 대한 석탄 및 맥석 감지를 완료 할 수 있지만 기존 감지기 프레임 워크를 직접 사용하여 얻은 모델의 정확도는 훈련 여부와 관계없이 만족스럽지 않습니다. 모델을 처음부터 또는 미세 조정합니다.

Cascades are widely used to improve network performance [[27][28][29]]. In this study, because of the unsatisfactory effects of existing detector framework, a coal and gangue detection network was proposed based on cascades. The structure of this cascade network, including detector and discriminator, is shown in Fig. 1. An image was collected by experimental equipment and input into the detector, and bounding boxes and preliminary recognition results of the materials were obtained. Thereafter, the objects were cropped according to the bounding boxes, and the cropped images were input into the discriminator. The final results were given by the discriminator to improve the overall accuracy of network.
캐스케이드는 네트워크 성능을 향상시키는 데 널리 사용됩니다 [ [27] , [28] , [29] ]. 본 연구에서는 기존 검출기 프레임 워크의 효과가 만족스럽지 못하기 때문에 캐스케이드 기반의 석탄 및 맥석 검출 네트워크를 제안했습니다. 검출기와 판별기를 포함한이 캐스케이드 네트워크의 구조는 그림 1에 나와 있습니다. 실험 장비로 이미지를 수집하여 검출기에 입력하여 경계 상자와 재료의 예비 인식 결과를 얻었습니다. 그 후, 경계 상자에 따라 객체를 자르고 자른 이미지를 판별기에 입력했습니다. 최종 결과는 네트워크의 전반적인 정확도를 향상시키기 위해 판별자가 제공했습니다.

Fig. 1. Structure of cascade detection network

2.1.1. Detector / 탐지기

The detector is mainly used for preliminary object detection. Due to the slow speed of Faster-RCNN [30] (i.e., the fastest model in RCNN series networks), it cannot meet the real-time needs of industrial production. In contrast, YOLO-V3 [31] is 15 times faster than Faster-RCNN, and it has multi-scale prediction ability similar to feature pyramid networks (FPN) [32], which is suitable for real-time needs and dealing with particle size variation on the conveyor belt. Therefore, YOLO-V3 was adopted as the network structure of the detector, as shown in Fig. 1a. Its workflow is as follows:
감지기는 주로 예비 물체 감지에 사용됩니다. Faster-RCNN [ 30 ] (즉, RCNN 시리즈 네트워크에서 가장 빠른 모델) 의 느린 속도로 인해 산업 생산의 실시간 요구를 충족 할 수 없습니다. 반면 YOLO-V3 [ 31 ]은 Faster-RCNN보다 15 배 빠르며 , 실시간 요구와 입자 처리에 적합한 FPN [ 32 ] 과 유사한 멀티 스케일 예측 능력 을 가지고 있습니다. 컨베이어 벨트의 크기 변화. 따라서 그림 1a 와 같이 YOLO-V3를 탐지기의 네트워크 구조로 채택 했습니다. 워크 플로우는 다음과 같습니다.

a.The material image is resized to 416 × 416 pixels.
재료 이미지의 크기가 416 x 416으로 조정됩니다

b.The resized image is put into the Darknet-53 network for extracting features.
크기가 조정 된 이미지는 기능 추출을 위해 Darknet-53 네트워크에 배치됩니다

c.Feature maps at three scales (13 × 13, 26 × 26, 52 × 52 pixels) are obtained by up-sampling and feature fusion.
3가지 스케일 (13x13, 26x26, 52x52 픽셀)의 기능 맵은 업 샘플링 및 기능 융합을 통해 얻습니다.

d.The input image is meshed by combining the three-scale feature maps.
입력 이미지는 3개 축척기 능 맵을 결합하여 메시 됩니다.

e.Each grid predicts the object information of the center point falling within its area. This includes coordinates, confidence score, and class probability.
각 그리드는 해당 영역에 속하는 중심점의 객체 정보를 예측합니다. 여기에는 좌표, 신뢰도 점수 및수 업 확률이 포함됩니다.

f.The bounding box with the highest intersection-over-union (IoU) score is selected by non-maximum suppression as the detection result, and the class with the highest probability is selected as the recognition result.
IoU 점수가 가장 높은 경계 상자는 비 최대 억제에 의해 탐지 결과로 선택되고, 확률이 가장 높은 클래스가 인식 결과로 선택됩니다.

2.1.2. Discriminator / 판별자

The discriminator verifies the recognition result from the detector. When the detector found an object, the bounding box and class probability was sent to the discriminator and the object area in the input image is cropped to the bounding box coordinates. CNN (including AlexNet [14], VGG-16/19 [33] or ResNet-34/50 [34]) constructs the coal and gangue recognition network to classify the cropped image. The class probability in the detector and the recognition network result give the final classified result. Fig. 1b shows the flow chart for the discriminator.
판별 기는 검출기의 인식 결과를 확인합니다. 탐지기가 객체를 발견하면 경계 상자와 클래스 확률이 판별 자에게 전송되고 입력 이미지의 객체 영역이 경계 상자 좌표로 잘립니다. CNN (AlexNet [ 14 ], VGG-16 / 19 [ 33 ] 또는 ResNet-34 / 50 [ 34 ] 포함)은 잘린 이미지를 분류하기 위해 석탄 및 맥석 인식 네트워크를 구성합니다. 검출기의 클래스 확률과 인식 네트워크 결과는 최종 분류 결과를 제공합니다. 그림 1b는 판별 기의 흐름도를 보여줍니다.

The above-mentioned previous reports indicated that coal and gangue in images were so similar that it was difficult to detect the difference in every case using manual selection. Alternatively, CNN is an end-to-end training network which automatically extracts the features of the different objects, but it is less controllable than traditional image processing, so a combination of traditional image processing and CNN was often found to achieve the best result [35].
위에서 언급 한 이전 보고서에서는 이미지의 석탄과 맥석이 너무 유사하여 수동 선택을 사용하여 모든 경우의 차이를 감지하기가 어려웠습니다. 또는 CNN은 서로 다른 객체의 특징을 자동으로 추출하는 종단 간 교육 네트워크이지만 기존 이미지 처리보다 제어가 어렵 기 때문에 기존 이미지 처리와 CNN의 조합이 최상의 결과를 달성하는 것으로 종종 발견되었습니다. 35 ].

To deal with the characteristics of the particular materials in the present study, three aspects of the discriminator in the basic CNN network were improved by combining traditional image processing and deep learning, as follows:
본 연구에서 특정 재료의 특성을 다루기 위해 기본 CNN 네트워크에서 판별 자의 세 가지 측면이 다음과 같이 전통적인 이미지 처리와 딥 러닝을 결합하여 개선되었습니다.

(1)A multi-channel feature fusion layer was added between the input layer and the first convolutional layer using HSV color, which resembles human color sensing considerably more than RGB colors (Fig. 1i). After first equalizing by means of histograms, the expanded greyscale levels in the material images was 0 to 255, allowing the details of the textural features to be more effectively displayed (Fig. 1ii). The image features from the frequency domain were displayed using 2D discrete wavelet transform (Fig. 1iii) [13]. The results of the improved technology were then integrated by channel superposition with the original material images. This process eventually guides CNN to distinguish the features of the materials in a directional way.
(1)HSV 색상을 사용하여 입력 레이어와 첫 번째 컨볼 루션 레이어 사이에 다중 채널 특징 융합 레이어가 추가되었으며, 이는 RGB 색상보다 훨씬 더 인간의 색상 감지와 유사합니다 ( 그림 1i). 히스토그램을 사용하여 먼저 이퀄라이제이션을 수행 한 후 재료 이미지의 확장 된 그레이 스케일 레벨은 0에서 255까지 였으므로 텍스처 특징의 세부 사항을보다 효과적으로 표시 할 수 있습니다 ( 그림 1ii). 주파수 영역의 이미지 특징은 2D 이산 웨이블릿 변환을 사용하여 표시되었습니다 ( 그림 1 iii) [ 13 ]. 개선 된 기술의 결과는 원본 소재 이미지와 채널 중첩을 통해 통합되었습니다. 이 프로세스는 결국 CNN이 방향성 방식으로 재료의 특징을 구별하도록 안내합니다.

(2)The Softmax layer was replaced by support vector machine (SVM) for classification. In currently preferred network structures, most of the features extracted by the convolutional layer are classified by a Softmax layer. While Softmax is convenient for multiple classifications, the recognition of coal and gangue requires binary classification only, so in this study it was replaced by SVM as the classifier.
(2)분류를 위해 Softmax 계층이 SVM (Support Vector Machine)으로 대체되었습니다. 현재 선호되는 네트워크 구조에서 컨볼 루션 계층에서 추출한 대부분의 특징은 Softmax 계층으로 분류됩니다. Softmax는 다중 분류에 편리하지만 석탄과 맥석의 인식에는 이진 분류 만 필요하므로이 연구에서는 분류기로서 SVM으로 대체되었습니다.

(3)The cross entropy loss was replaced by squared hinge loss function for training. Cross entropy loss is commonly used for logistic regression and Softmax classification, as
(3)교차 엔트로피 손실은 훈련을위한 제곱 힌지 손실 함수로 대체되었습니다. 교차 엔트로피 손실은 일반적으로 로지스틱 회귀 및 Softmax 분류에 사용됩니다.

(1)

Eq. (1) is often used as the loss function in classical network training owing to its strong universality; however, in the present case the loss function needed to be more targeted, as discussed above.
식. (1) 강력한 보편성으로 인해 고전적인 네트워크 훈련에서 손실 함수로 자주 사용됩니다. 그러나 현재의 경우에는 위에서 논의한 바와 같이 손실 함수를 더 목표로 삼아야했습니다.

The principle of SVM is to find the hyperplane at the greatest distance from the support vectors of the two classes [36]. Therefore, squared hinge loss was selected for network training to achieve better performance. The initial SVM optimization function is given as
SVM의 원리는 두 클래스의지지 벡터로부터 가장 먼 거리에서 초평면을 찾는 것입니다 [ 36 ]. 따라서 더 나은 성능을 달성하기 위해 네트워크 훈련에 제곱 힌지 손실을 선택했습니다. 초기 SVM 최적화 기능은 다음과 같이 제공됩니다.

(2)

where w is the weight connecting the penultimate layer to the classification layer.
여기서 w 는 두 번째 레이어를 분류 레이어에 연결하는 가중치입니다.

Since it cannot be differentiated, the constraint term is deformed as
미분 할 수 없기 때문에 제약 조건은 다음과 같이 변형됩니다.

 

(3)

Thus we get the more useful squared hinge loss form, as
따라서 우리는 더 유용한 제곱 힌지 손실 형식을 얻습니다.

(4)

When the results were obtained simultaneously by the detector and the improved CNN of the discriminator, we needed to make a decision between the two results. The loss function of YOLO-V3 is.
검출기와 판별 기의 개선 된 CNN에 의해 ​​결과가 동시에 얻어 졌을 때 우리는 두 결과 사이에서 결정을 내려야했습니다. YOLO-V3의 손실 기능은 다음과 같습니다.

where s2 is the number of grid cells; B is the number of anchor boxes generated by each grid cell; Iijobj is the jth bounding box predictor in cell i that is responsible for that prediction; Iijnoobj is the jth bounding box predictor in cell i that is not responsible for that prediction; λcoordis the location weighting; λnoobj is the weight of confidence without object; (x,y) are the center coordinates; (w,h) are the length and width of the bounding box; C is the confidence; and P is the class prediction. It is worth noting that the loss function of YOLO-V3 consists of four parts: the errors of center coordinates, length and width, confidence, and classification.
여기서 s 2 는 그리드 셀의 수입니다. B 는 각 그리드 셀에서 생성 된 앵커 상자의 수입니다. I ij obj  해당 예측을 담당하는  i  j 번째 경계 상자 예측 자입니다 . I IJ noobj하는 단계 는 IS J 셀 상자 예측기 경계 번째 I 이다 하지 그 예측에 대한 책임; λ coord 는 위치 가중치입니다. λ noobj 는 대상이없는 신뢰의 무게입니다. ( x , y w , h )는 중심 좌표입니다. ( )는 경계 상자의 길이와 너비입니다. C 는 신뢰입니다.  P는 클래스 예측이다. YOLO-V3의 손실 함수는 중심 좌표 오차, 길이와 너비, 신뢰도, 분류의 네 부분으로 구성되어 있습니다.

The output of the network, represented by out, was divided into four parts corresponding to the loss function. The final result of the cascade network was determined by.
out 으로 표시된 네트워크의 출력은 손실 함수에 해당하는 네 부분으로 나뉩니다. 캐스케이드 네트워크의 최종 결과는 다음에 의해 결정되었습니다.

where out3 was the output of confidence; out4 was the output of classification; and k1 and k2 were the coefficients to be optimized.
어디 에서 3 신뢰 산출 하였다; 에서 4 등급의 출력이었다;  k는 1  k는 2 최적화하는 계수 하였다.

2.2. Visualizing CNN CNN 시각화

Visualization technique is helpful for understanding the mechanism of CNN; for example, in this case visualization of the features that CNN automatically extracts from the coal and gangue images will lead to further improvements of the network structure in future. This is of great significance, particularly in studying the surface features of coal. The two visualization techniques adopted in the present work were described below.
시각화 기술은 CNN의 메커니즘을 이해하는 데 도움이됩니다. 예를 들어,이 경우 CNN이 석탄 및 맥석 이미지에서 자동으로 추출하는 기능의 시각화는 향후 네트워크 구조의 추가 개선으로 이어질 것입니다. 이것은 특히 석탄의 표면 특성을 연구 할 때 매우 중요합니다. 현재 작업에 채택 된 두 가지 시각화 기술은 아래에 설명되어 있습니다.

2.2.1. Visualizing the intermediate convolutional layer outputs (intermediate activations)
중간 컨벌루션 계층 출력 시각화 (중간 활성화)

The features extracted by each convolutional layer were obtained by visualizing activation maps of convolutional kernel, which could understand the function of the convolutional kernel to some extent.
각 convolutional layer에서 추출한 특징은 convolutional kernel의 기능을 어느 정도 이해할 수있는 convolutional kernel의 활성화 맵을 시각화하여 얻은 것입니다.

2.2.2. Visualizing the heatmaps produced by class activation in an image
클래스 활성화로 생성 된 히트 맵을 이미지로 시각화

The heatmaps were used to understand the activation of different classes in the image, and the purpose of this approach is to understand which part of the image leads CNN to make the final classification decision. The visualizing steps were as follows:
히트 맵은 이미지에서 다른 클래스의 활성화를 이해하는 데 사용되었으며이 접근 방식의 목적은 이미지의 어느 부분이 CNN이 최종 분류 결정을 내 리도록 유도하는지 이해하는 것입니다. 시각화 단계는 다음과 같습니다.

a.

Extract all the feature maps obtained by the outputs of the last convolution layer (e.g., i × j × num, where i × j is the feature map size, and num is the number of feature maps).
마지막 컨볼 루션 레이어의 출력에서 ​​얻은 모든 특징 맵을 추출합니다 (예 : i  ×  j  ×  num , 여기서 i  ×  j 는 기능 맵 크기이고 num 은 기능 맵 수).

b.

Calculate the classification weights of each feature map in the full connection layer using back propagation (since the SVM classifier does not participate in the training of CNN and the full connection layer is used for back propagation calculation).
역 전파를 사용하여 전체 연결 계층에서 각 특성 맵의 분류 가중치를 계산합니다 (SVM 분류기는 CNN 훈련에 참여하지 않고 전체 연결 계층이 역 전파 계산에 사용되기 때문).

c.

Each feature in the map is multiplied by the weight, and the mean value is calculated in the third dimension to obtain an i × j heatmap in the case of coal and a separate i × j heatmap for gangue.
맵의 각 특성에 가중치를 곱하고 평균값을 3 차원에서 계산하여 석탄의 경우 i  ×  j 히트 맵 을 얻고 맥석에 대한 별도의 i  ×  j 히트 맵을 얻습니다.

d.

Activate heatmaps (using a rectified linear unit, ReLU) to preserve only those features that are useful for that class.
해당 클래스에 유용한 기능 만 보존하려면 히트 맵을 활성화합니다 (정류 된 선형 장치, ReLU 사용).

e.

Normalize the activation results to eliminate values that do not lie between 0 and 255.
활성화 결과를 정규화하여 0에서 255 사이에 있지 않은 값을 제거합니다.

f.

Re-size the results from step ‘e’ to the size of the original material image, and weight it with the original image to obtain the heatmaps of the class activation in an image.
재 원래 소재 영상의 크기 단계 'E'의 결과를 -size, 원본 이미지와 무게는 이미지 클래스 활성화의 히트 맵을 얻었다.

3. Experiment

3.1. Experimental equipment
실험장비

The experimental equipment employed in this study comprised four parts: an image collection device, a computation server device, a sorting control device and a sorting actuator device (Fig. 2). The auxiliary light in the image collection device was composed of twenty-four 8 W LED light strips. TracePro software was utilized to simulate the light field and to determine the distribution of the light strips, which ensured illumination in the detection area stabilized at 1200 (±100) lx. A Basler Industrial Camera (acA4096–40) was embedded into the image collection device with a shooting rate up to 42 fps with an array size of 4096 × 2168. The core of this system was a computation server device divided into a model training server (CPU: Inter(R) Xeon CPU E5–2683 v3; GPU: NVIDIA Tesla K40c × 2) and an online detection server (CPU: Inter(R) Core (TM) i5-9600K; GPU: NVIDIA TITAN XP × 1). The sorting control device consisted of a Mitsubishi PLC (Q04UDVCPU) and associated drives. The sorting actuator device was an independently designed manipulator used for sorting by receiving the control signal from the PLC. A description of the sorting and structure control strategy employed in this manipulator is beyond the scope of this paper, and will be treated in a separate article.
이 연구에 사용 된 실험 장비는 이미지 수집 장치, 계산 서버 장치, 분류 제어 장치 및 분류 액추에이터 장치의 네 부분으로 구성되었습니다 ( 그림 2).). 이미지 수집 장치의 보조 조명은 24 개의 8W LED 조명 스트립으로 구성되었습니다. TracePro 소프트웨어를 사용하여 라이트 필드를 시뮬레이션하고 라이트 스트립의 분포를 결정하여 감지 영역의 조명이 1200 (± 100) lx로 안정화되었습니다. Basler 산업용 카메라 (acA4096–40)는 4096 × 2168 배열 크기로 최대 42fps의 촬영 속도로 이미지 수집 장치에 내장되었습니다.이 시스템의 핵심은 모델 교육 서버로 분할 된 계산 서버 장치였습니다. CPU : Inter (R) Xeon CPU E5–2683 v3, GPU : NVIDIA Tesla K40c × 2) 및 온라인 감지 서버 (CPU : Inter (R) Core (TM) i5-9600K, GPU : NVIDIA TITAN XP × 1). 분류 제어 장치는 Mitsubishi PLC (Q04UDVCPU) 및 관련 드라이브로 구성되었습니다. 분류 액추에이터 장치는 PLC에서 제어 신호를 수신하여 분류에 사용되는 독립적으로 설계된 조작기입니다. 이 조작기에 사용 된 분류 및 구조 제어 전략에 대한 설명은이 문서의 범위를 벗어나므로 별도의 기사에서 다룰 것입니다.

Fig. 2. (a) Diagram and (b) photograph of the experimental system used in this study.
그림 2 . 본 연구에 사용 된 실험 시스템의 (a) 다이어그램 및 (b) 사진.

3.2. Experimental environment and samples
실험환경 및 샘플

Considering that Huaibei is an important coal producing area in China, the experiment was carried out at the Guobei coal preparation plant in Anhui Province. Guobei is a central coal preparation plant, and the materials for washing (coking coal, fat coal and others) are sourced from several mining areas subordinate to the Huaibei Mining Group. Oversize material (≥ 50 mm) from a vibrating screen enters the conveyor belt (rate 0.5 m/s). A total of 13,251 images of the raw material on the belt were collected to act as the training sample for the detector in the experiment. It was found that each image contained more than 40 fragments by manual annotation and counting. Overall, 9843 coal fragments and 525,464 gangue fragments appeared in all images, and the range of particle size is 25 mm ~ 100 mm. The particle size distribution is shown in Fig. 3. The fragments were removed from the images and used as original training dataset for the discriminator.
Huaibei가 중국의 중요한 석탄 생산 지역이라는 점을 고려하여 실험은 Anhui Province의 Guobei 석탄 준비 공장에서 수행되었습니다. Guobei는 중앙 석탄 제조 공장이며, 세척 재료 (점결탄, 지방 석탄 및 기타)는 Huaibei Mining Group에 속한 여러 광산 지역에서 공급됩니다. 진동 스크린에서 나온 특대 재료 (≥ 50mm)가 컨베이어 벨트로 들어갑니다 (속도 0.5m / s). 실험에서 검출기의 훈련 샘플 역할을하기 위해 벨트에있는 원료의 총 13,251 개의 이미지를 수집했습니다. 각 이미지에는 수동 주석 및 계수를 통해 40 개 이상의 조각이 포함되어있는 것으로 나타났습니다. 총 9843 개의 석탄 파편과 525,464 개의 맥석 파편이 모든 이미지에 나타 났으며 입자 크기의 범위는 25mm ~ 100mm입니다. 입자 크기 분포는그림 3 . 조각은 이미지에서 제거되고 판별 자에 대한 원래 훈련 데이터 세트로 사용되었습니다.

Fig. 3. Histogram of coal and gangue particle size distribution.
그림 3 . 석탄 및 맥석 입자 크기 분포의 히스토그램.

Owing to processing problems, the belt where the experimental equipment was located contained only 5% ~ 10% coal content, which led to a severe imbalance between the classes of material in the image samples and affected the CNN training procedure [37,38]. Therefore, the coal fragmented images were augmented and the gangue fragmented images were under-sampled in order to redress the imbalance. In order to improve the generality of the model, the methods of random rotation, flip, contrast stretch and brightness adjustment were used to enlarge the coal image and optimize the spatial distribution of the data. To under-sample the gangue images, some were randomly deleted and the image data augmentation methods used for the coal were then applied to the remaining gangue images. Finally, each class of material (coal and gangue) consisted of 98,430 fragments, and all of these fragmented images constitute the training dataset for the discriminator. The procedure is illustrated in Fig. 4.
가공 문제로 인해 실험 장비가 위치한 벨트에는 석탄 함량이 5 % ~ 10 %에 불과하여 이미지 샘플의 재료 등급간에 심각한 불균형이 발생하고 CNN 훈련 절차에 영향을 미쳤습니다. [ 37 , 38]. 따라서 불균형을 해결하기 위해 석탄 조각난 이미지를 확대하고 맥석 조각난 이미지를 언더 샘플링했습니다. 모델의 일반성을 향상시키기 위해 무작위 회전, 뒤집기, 대비 늘이기 및 밝기 조정 방법을 사용하여 석탄 이미지를 확대하고 데이터의 공간 분포를 최적화했습니다. 맥석 이미지를 언더 샘플링하기 위해 일부를 무작위로 삭제하고 석탄에 사용 된 이미지 데이터 증가 방법을 나머지 맥석 이미지에 적용했습니다. 마지막으로 각 재료 클래스 (석탄 및 맥석)는 98,430 개의 조각으로 구성되었으며 이러한 모든 조각화 된 이미지는 판별자를위한 훈련 데이터 세트를 구성합니다. 절차는 그림 4 에 설명되어 있습니다 .

Fig. 4. Approach adopted to balance the two sample classes.
두 샘플 클래스의 균형을 맞추기 위해 채택 된 접근법.

In order to verify the practical effect of the proposed method, 97 raw coal images collected in production context as a test dataset for detector. Those raw coal images contained about 8 materials fragments for each image on average and included a total of 400 coal fragments and 400 gangue fragments. These fragments were removed from the images and used as a test dataset for discriminator. All the coal and gangue used in test dataset were carefully checked to ensure that the label is correct.
제안 된 방법의 실질적인 효과를 검증하기 위해 생산 상황에서 수집 된 97 개의 원시 석탄 이미지를 검출기 용 테스트 데이터 세트로 사용했습니다. 그 원시 석탄 이미지에는 각 이미지에 대해 평균 약 8 개의 재료 조각이 포함되어 있으며 총 400 개의 석탄 조각과 400 개의 맥석 조각이 포함되었습니다. 이러한 조각은 이미지에서 제거되어 판별자를위한 테스트 데이터 세트로 사용되었습니다. 테스트 데이터 세트에 사용 된 모든 석탄과 맥석은 라벨이 올바른지 신중하게 확인되었습니다.

4. Results and discussion
결과 및 논의

4.1. Evaluation of optimization with different network structures
다양한 네트워크 구조로 최적화 평가

The training dataset for discriminator that was built using the approach proposed in subsection 3.2 was used to train five network models: AlexNet, VGG-16, VGG-19, ResNet34 and ResNet50. 70% and 30% of the total fragments were used for training and verification, respectively. The Adam optimizer (learning rate = 0.0001, learning decay = 0.0005) was used to minimize the loss. Models were trained from scratch (input shape = (224, 224, 3), epochs = 50, batch size = 32). Their training curves are shown in Fig. 5, panel (1), which shows that the convergence of AlexNet is worse than for the other four networks, and whose training accuracy stabilizes after 98%. The convergence of the remaining networks is roughly similar, although it can be concluded that the ResNet series converged slightly faster than the VGG series from the 5th to the 10th epoch. This indicates that classifying the images of the coal and gangue collected at the coal preparation plant requires the network to have both depth and complexity, which helps the model to converge.
하위 섹션 3.2에서 제안 된 접근 방식을 사용하여 구축 된 판별 자용 학습 데이터 세트는 AlexNet, VGG-16, VGG-19, ResNet34 및 ResNet50의 5 가지 네트워크 모델을 학습하는 데 사용되었습니다. 전체 조각의 70 % 및 30 %가 각각 훈련 및 검증에 사용되었습니다. Adam 최적화 프로그램 (학습률 = 0.0001, 학습 감쇠 = 0.0005)을 사용하여 손실을 최소화했습니다. 모델은 처음부터 훈련되었습니다 (입력 형태 = (224, 224, 3), epochs = 50, 배치 크기 = 32). 그들의 훈련 곡선은 그림 5에 나와 있습니다., 패널 (1)은 AlexNet의 수렴이 다른 4 개 네트워크보다 나쁘고 훈련 정확도가 98 % 후에 안정화되었음을 보여줍니다. 나머지 네트워크의 수렴은 대략 비슷하지만 ResNet 시리즈는 5 세대부터 10 세대까지 VGG 시리즈보다 약간 더 빠르게 수렴했다고 결론을 내릴 수 있습니다. 이는 석탄 준비 공장에서 수집 된 석탄과 맥석의 이미지를 분류하려면 네트워크에 깊이와 복잡성이 모두 있어야하므로 모델이 수렴하는 데 도움이됩니다.

Fig. 5. Training curves illustrating the performance of the proposed approach (method 2) compared the baseline method (method 1). Note that the training curves related to method 2 are irrelevant to the SVM classifier, and are affected only by the multi-features and squared hinge loss, whereas learning rate, decay, batch size, and other hyper-parameter settings for each network training remain consistent.
그림 5 . 제안 된 접근법 (방법 2)의 성능을 보여주는 훈련 곡선은 기준 방법 (방법 1)과 비교했습니다. 방법 2와 관련된 훈련 곡선은 SVM 분류기와 관련이 없으며 다중 기능 및 제곱 힌지 손실에 의해서만 영향을받는 반면, 각 네트워크 훈련에 대한 학습률, 붕괴, 배치 크기 및 기타 하이퍼 매개 변수 설정은 그대로 유지됩니다. 일관된.

The approach proposed in subsection 2.1.2 was used to optimize the above five networks. After training with the same dataset, panels (2) ~ (5) of Fig. 4a compare the training and validation accuracy curves pre- and post-optimization. These show certain interesting phenomena. The convergences of all five networks tend to start at the 5th epoch. The convergence speed after optimization (method 2) is slower than before optimization (method 1). However, it is indicated that validation accuracy of the network after optimization is better than that before optimization by the smaller distance between the training and validation curves for the optimized network, and it also implies a lesser degree of overfitting.
하위 섹션 2.1.2에서 제안한 접근 방식은 위의 5 개 네트워크를 최적화하는 데 사용되었습니다. 동일한 데이터 세트로 훈련 한 후, 그림 4a의 패널 (2) ~ (5)는 최적화 전후의 훈련 및 검증 정확도 곡선을 비교합니다. 이것들은 흥미로운 현상을 보여줍니다. 5 개 네트워크 모두의 수렴은 5 세대에서 시작되는 경향이 있습니다. 최적화 (방법 2) 후 수렴 속도는 최적화 이전 (방법 1)보다 느립니다. 그러나 최적화 된 네트워크에 대한 훈련 곡선과 검증 곡선 사이의 거리가 좁아 최적화 후 네트워크의 검증 정확도가 최적화 전보다 우수하며 과적 합 정도도 더 적음을 의미합니다.

There may be two reasons for the above situation. The first is that the network is given more input in method 2, which slows network convergence but reduces overfitting. The second is the different natures of the squared hinge loss and cross entropy loss. As previously pointed out, lower cross entropy loss actually leads to a higher error, whereas the gain in deep learning using L2-SVMs (DLSVM) was largely due to the better objective function (i.e., squared hinge loss) [39]. It has also been found [40] that the validation accuracy of training was higher with squared hinge loss than with cross entropy loss.
위 상황에는 두 가지 이유가있을 수 있습니다. 첫 번째는 방법 2에서 네트워크에 더 많은 입력이 제공되어 네트워크 수렴 속도는 느려지지만 과적 합은 줄어 듭니다. 두 번째는 제곱 힌지 손실과 교차 엔트로피 손실의 서로 다른 특성입니다. 이전에 지적했듯이 교차 엔트로피 손실이 낮을수록 실제로 더 높은 오류가 발생하는 반면, L2-SVM (DLSVM)을 사용한 딥 러닝의 이득은 주로 더 나은 목적 함수 (즉, 제곱 힌지 손실)에 기인합니다 [ 39 ]. 또한 밝혀졌다 [ 40 ] 훈련의 검증의 정확성이 교차 엔트로피 손실보다 힌지 제곱 손실을 높게했다.

To verify the practical effect of the proposed discriminator optimization (method 2), the discriminators were tested using the test dataset built in subsection 3.2, and the optimization results were compared to original network results. The results in Fig. 6 show that the optimization method proposed in this study improved the performance of all five networks in the test dataset. The test accuracy was increased by 2.85% on average, of which VGG-19 produced the largest increase of 4.25%. It was also found, however, that the performance of AlexNet conformed to the training curve, and its test accuracy after optimization was only 72.5%, significantly lower than for the other four networks. Compared with the VGG series, the performance of the ResNet series decreased: ResNet50, with the more complex structure, gave a test accuracy of 80.25% after optimization, less than the 83.50% result for the less complex ResNet34 network. It is indicated that the network structure needs to have sufficient depth and scale for coal and gangue image recognition, but excessive depth tends to increase overfitting in the model. In the end, we chose the optimized VGG-19 model as the discriminator in the cascade network.
제안 된 판별 기 최적화 (방법 2)의 실제 효과를 확인하기 위해 하위 섹션 3.2에서 빌드 된 테스트 데이터 세트를 사용하여 판별기를 테스트하고 최적화 결과를 원래 네트워크 결과와 비교했습니다. 그림 6 의 결과이 연구에서 제안한 최적화 방법이 테스트 데이터 세트에있는 5 개 네트워크 모두의 성능을 향상 시켰음을 보여줍니다. 테스트 정확도는 평균 2.85 % 증가했으며이 중 VGG-19는 4.25 %의 가장 큰 증가를 기록했습니다. 그러나 AlexNet의 성능이 훈련 곡선을 따르고 최적화 후 테스트 정확도가 72.5 %에 불과하여 다른 4 개 네트워크보다 훨씬 낮은 것으로 확인되었습니다. VGG 시리즈와 비교하여 ResNet 시리즈의 성능이 감소했습니다. 구조가 더 복잡한 ResNet50은 최적화 후 80.25 %의 테스트 정확도를 제공했으며 덜 복잡한 ResNet34 네트워크의 경우 83.50 %보다 낮았습니다. 네트워크 구조는 석탄과 맥석 이미지 인식을 위해 충분한 깊이와 규모가 있어야 함을 나타냅니다. 그러나 과도한 깊이는 모델에서 과적 합을 증가시키는 경향이 있습니다. 결국, 우리는 캐스케이드 네트워크에서 판별 자로 최적화 된 VGG-19 모델을 선택했습니다.

Fig. 6. Comparison of test accuracy before and after optimization after replacing the Softmax layer with a trained SVM classifier to test the accuracy of method 2. The specific approach is to use trained CNN to extract features, and the last convolutional layer output is flattened to act as input for training the SVM. During training, K-fold cross-validation was also used to optimize the hyper-parameters C and γ in SVM.
그림 6 . 방법 2의 정확도를 테스트하기 위해 Softmax 계층을 훈련 된 SVM 분류기로 교체 한 후 최적화 전후의 테스트 정확도 비교. 구체적인 접근 방식은 훈련 된 CNN을 사용하여 특징을 추출하고 마지막 컨볼 루션 계층 출력은 입력 역할을하도록 평면화됩니다. SVM 훈련을 위해. 훈련 중에 K- 폴드 교차 검증도 SVM에서 하이퍼 매개 변수 C 및 γ 를 최적화하는 데 사용되었습니다 .

4.2. Evaluation of cascade network
캐스케이드 네트워크 평가

To verify the practical effect of the proposed cascade network, we used the training dataset for the detector that was built in subsection 3.2 for training YOLO-V3 model from scratch (input shape = (416, 416, 3), epochs = 80, batch size = 16, early stopping = 8). 70% and 30% of the total fragments were used for training and verification, respectively. The Adam optimizer (learning rate = 0.0001, learning decay = 0.00005) was used to minimize the loss. After cascading the detector (the trained YOLO-V3 model) and the discriminator (the trained and optimized VGG-19 model), we tested the cascade network using the test dataset for the detector. It was found that when k1 = 0 in Eq. (6) (i.e., when the decision is affected by the discriminator only), the test accuracy was 88.625%, which is lower than the 89.75% in Fig. 5 of subsection 4.1. This phenomenon is due to the YOLO-V3 detector had over-segmented the same object or missed some objects, thus influencing the entire cascade network effect. When k2 = 0 in Eq. (6) (i.e., when the decision was affected by the detector only), the test accuracy was only 81.75%, indicating that the detection and recognition of coal and gangue by YOLO-V3 was not satisfactory under the complex conditions of actual mine production.
제안 된 캐스케이드 네트워크의 실제 효과를 확인하기 위해 YOLO-V3 모델을 처음부터 학습시키기 위해 하위 섹션 3.2에서 빌드 된 검출기에 대한 학습 데이터 세트를 사용했습니다 (입력 모양 = (416, 416, 3), epochs = 80, 배치 크기 = 16, 조기 중지 = 8). 전체 조각의 70 % 및 30 %가 각각 훈련 및 검증에 사용되었습니다. Adam 최적화 프로그램 (학습률 = 0.0001, 학습 감쇠 = 0.00005)을 사용하여 손실을 최소화했습니다. 탐지기 (학습 된 YOLO-V3 모델)와 판별 자 (학습되고 최적화 된 VGG-19 모델)를 계단식으로 연결 한 후 탐지기에 대한 테스트 데이터 세트를 사용하여 계단식 네트워크를 테스트했습니다. 이는 것을 발견했을 때 K 1 = 0 in Eq. (6) (즉, 결정이 판별 자에 의해서만 영향을받는 경우) 테스트 정확도는 88.625 % 로 하위 섹션 4.1의 그림 5 의 89.75 %보다 낮습니다 . 이 현상은 YOLO-V3 감지기가 동일한 물체를 과도하게 분할했거나 일부 물체를 놓쳐 전체 캐스케이드 네트워크 효과에 영향을 미치기 때문입니다. 식에서 k 2  = 0 일 때 . (6) (즉, 검출기에만 영향을받은 경우) 테스트 정확도는 81.75 %에 불과하여 YOLO-V3에 의한 석탄 및 맥석의 검출 및 인식이 실제 광산 생산의 복잡한 조건에서 만족스럽지 못함을 나타냅니다. 

Optimization of k1 and k2 was carried out using a grid search between 0.1 and 1.5 in steps of 0.1. The results for the various parameters are shown in Fig. 7. The contour profile in Fig. 7a shows that for an invariant k2, k1 is negatively correlated with test accuracy. When k1 is invariant, k2 will be positively correlated with test accuracy, indicating that the test accuracy of the network is effectively improved using the cascade CNN. Comparing Fig. 7b and c, it is clear that the accuracy of gangue recognition was significantly higher than for coal. The contour profile also shows that when k2 was kept constant and k1 was increased, the test accuracy decayed relatively slowly for the gangue. Hence, YOLO-V3 contributed more to gangue recognition than to coal recognition. Finally, the highest test accuracy of the overall cascade network reached 91.375% (k1 = 0.1, k2 = 1.1), whereas the highest test accuracy for coal was 90.000% for the same values of k1 and k2. The highest test accuracy for gangue was found to be 95.250% (k1 = 0.2, k2 = 1.2).
k 1 과 k 2의 최적화는 0.1 단계에서 0.1과 1.5 사이의 그리드 검색을 사용하여 수행되었습니다. 다양한 매개 변수에 대한 결과가 그림 7에 나와 있습니다. 그림 7a 의 윤곽 프로파일 은 불변 k 2의 경우 k 1 이 테스트 정확도와 음의 상관 관계가 있음을 보여줍니다 . 경우 K 1 불변이고, K (2)는 양 네트워크의 시험 정밀도를 효과적으로 캐스케이드 CNN을 사용하여 개선되는 것을 나타내는, 검사의 정확도와 관련된다. 그림 7 비교b와 c에서 맥석 인식의 정확도가 석탄보다 훨씬 높음을 알 수 있습니다. 윤곽 프로파일은 또한 k 2 가 일정하게 유지되고 k 1 이 증가 했을 때 맥석에 대한 테스트 정확도가 상대적으로 느리게 감소 했음을 보여줍니다 . 따라서 YOLO-V3는 석탄 인식보다 맥석 인식에 더 많이 기여했습니다. 마지막으로 전체 캐스케이드 네트워크의 가장 높은 테스트 정확도는 91.375 % ( k 1  = 0.1, k 2  = 1.1)에 도달 한 반면 석탄에 대한 가장 높은 테스트 정확도는 k 1 및 k 2 의 동일한 값에 대해 90.000 %였습니다 . 맥석에 대한 가장 높은 테스트 정확도는 95.250 % ( k 1 = 0.2, k 2  = 1.2).

Fig. 7. Cascade model parameter selection accuracy for (a) all test samples; (b) coal; (c) gangue.
 (a) 모든 테스트 샘플에 대한 캐스케이드 모델 매개 변수 선택 정확도; (b) 석탄; (c) 맥석.

The reason for the difference in the accuracy of recognizing coal and gangue may be that only 5% ~ 10% of the objects in each image used in YOLO-V3 training were coal and the rest was gangue, which was the composition of the raw material on the conveyor belt. This was taken into consideration and only 20% of objects in each image was allowed to participate in the training, but the class imbalance occurred nevertheless. This also reinforces the necessity of processing the sample set as described in subsection 3.2.
석탄과 맥석을 인식하는 정확도에 차이가있는 이유는 YOLO-V3 훈련에 사용 된 각 이미지의 물체 중 5 % ~ 10 %만이 석탄이고 나머지는 원료 성분 인 맥석 이었기 때문일 수 있습니다. 컨베이어 벨트에. 이를 고려하여 각 이미지의 개체 중 20 % 만 교육에 참여할 수 있었지만 클래스 불균형이 발생했습니다. 이것은 또한 하위 섹션 3.2에 설명 된대로 샘플 세트를 처리해야하는 필요성을 강화합니다.

The highest test accuracy of the cascade network (91.375%) exceeded that when k1 = 0 (88.625%). Although the improvement in the model accuracy is a welcome development, its general applicability to all cases is not expected. The most likely reason is that for the test set in this study, the scores for individual samples in YOLO-V3 corrected its incorrect recognition by CNN. This only explains that the features extracted by Darknet-53 in YOLO-V3 complement the features extracted by the optimized VGG-19 in certain cases, but it does not indicate their advantages and disadvantages. However, the accuracy of the network is certainly improved by building the discriminator to make decisions on the results of the detector.
캐스케이드 네트워크의 가장 높은 테스트 정확도 (91.375 %)는 k 1  = 0 (88.625 %) 일 때를 초과했습니다 . 모델 정확도의 향상은 환영할만한 개발이지만 모든 경우에 일반적인 적용 가능성은 예상되지 않습니다. 가장 가능성이 높은 이유는이 연구의 테스트 세트에서 YOLO-V3의 개별 샘플 점수가 CNN에서 잘못된 인식을 수정했기 때문입니다. 이는 YOLO-V3에서 Darknet-53으로 추출 된 기능이 특정 경우에 최적화 된 VGG-19로 추출 된 기능을 보완한다는 것을 설명 할뿐 장단점을 나타내지는 않습니다. 그러나 탐지기의 결과에 대한 결정을 내리는 판별기를 구축함으로써 네트워크의 정확도가 확실히 향상됩니다.

4.3. Comparison of the proposed approach against other deep-learning based detectors
제안 된 접근 방식을 다른 딥 러닝 기반 탐지기와 비교

To compare the practical effect of the proposed cascade network with other existing detection network, we used the training dataset for detector that was built in subsection 3.2 for training YOLO-V3 model (input shape = (416, 416, 3), epochs = 80, batch size = 16, early stopping = 8), and which was used fine-tuned with pre-trained weights of Common Objects in Context (COCO) dataset. 70% and 30% of the total fragments were used for training and verification, respectively. Then the same training dataset was used for detector to train Faster-RCNN (input shape = (416, 416, 3), epochs = 80, batch size = 1, early stopping = 8), including the two cases of fine-tuning with pre-training weights of COCO dataset and training from scratch. The Adam optimizer (learning rate = 0.00001, learning decay = 0.00005) was used to minimize the loss. Finally, we used the test dataset for the detector to test the above trained model, and compared them with the proposed cascade network. The comparison results are shown in Table 1. The Intersection Over Union (IOU) threshold was set as 0.5. When the predicted result of fragment and the true label were both coals, it was recorded as True Positive (TP). When the gangue fragment was predicted as coal, it was recorded as False Positive (FP). When the predicted result of fragment and the true label were both gangues, it was recorded as True Negative (FN). When the coal fragment was predicted as gangue, it was recorded as False Negative (FN). The mean Average-Precision (mAP) defined in the PASCAL VOC2012 challenge was used to measure the overall performance of localization and classification.
제안 된 캐스케이드 네트워크의 실제 효과를 기존의 다른 탐지 네트워크와 비교하기 위해 YOLO-V3 모델 (입력 모양 = (416, 416, 3), epochs = 80) 훈련을 위해 하위 섹션 3.2에서 빌드 된 탐지기 용 훈련 데이터 세트를 사용했습니다. , 배치 크기 = 16, 조기 중지 = 8), COCO (Common Objects in Context) 데이터 세트의 사전 학습 된 가중치로 미세 조정하여 사용되었습니다. 전체 조각의 70 % 및 30 %가 각각 훈련 및 검증에 사용되었습니다. 그런 다음 탐지기에 Faster-RCNN (입력 모양 = (416, 416, 3), epochs = 80, 배치 크기 = 1, 조기 중지 = 8)을 훈련하기 위해 동일한 훈련 데이터 세트를 사용했습니다. COCO 데이터 세트의 사전 훈련 가중치 및 처음부터 훈련. Adam 최적화 프로그램 (학습률 = 0.00001, 학습 감쇠 = 0.00005)을 사용하여 손실을 최소화했습니다. 드디어, 위의 훈련 된 모델을 테스트하기 위해 감지기의 테스트 데이터 세트를 사용하고 제안 된 캐스케이드 네트워크와 비교했습니다. 비교 결과는표 1 . IOU (Intersection Over Union) 임계 값은 0.5로 설정되었습니다. 프래그먼트와 실제 라벨의 예측 결과가 모두 석탄 인 경우 True Positive (TP)로 기록되었습니다. 맥석 조각이 석탄으로 예측되었을 때 거짓 양성 (FP)으로 기록되었습니다. 프래그먼트와 실제 라벨의 예측 결과가 모두 맥석이면 True Negative (FN)로 기록되었습니다. 석탄 조각이 맥석으로 예측되면 거짓 음성 (FN)으로 기록되었습니다. PASCAL VOC2012 챌린지에 정의 된 평균 평균 정밀도 (mAP)는 현지화 및 분류의 전반적인 성능을 측정하는 데 사용되었습니다.

 

Table 1. Comparison of the proposed approach against other deep-learning based detectors.
표 1 . 제안 된 접근 방식과 다른 딥 러닝 기반 탐지기 비교.

MethodFine-tuneAccuracymAPRuntimeTPFPTNFNAccuracy

Method Fine-tune Accuracy         mAP Runtime
Faster-RCNN 296 58 391 332 85.875% 80.224 0.5832 s
YOLO-V3 223 77 311 121 71.750% 68.913 0.0302 s
285 39 369 132 81.750% 76.076 0.0302 s
Ours 363 36 368 58 91.375% 88.073 0.0302 s + N*0.0122 s

It is concluded that fine-tuned have different effects on different network frameworks. Fine-tuning must be used for training Faster-RCNN, because it is very difficult for Faster-RCNN to converge normally under the condition of trained from scratch. When using pre-trained weights to fine-tune the YOLO-V3, the effect is worse than for training from scratch. The main reason for this result is that pre-trained weights were trained for identifying objects from the COCO dataset which is quite different from coal and gangue, causing training from scratch will better fit the characteristics of coal and gangue. It is reported that if the task object dataset is sufficient, fine-tuning will only speeds up convergence on the target task, which is not beneficial to detection of network [41,42]. Due to the structure of Faster-RCNN, the batch size can only be set to 1–2 (memory limit) on a single graphics card, and which is why Faster-RCNN cannot converge normally without training with pre-trained weights. In contrast, YOLO-V3 as a one-stage detector can set a larger batch size on a single graphics card, so it can converge normally without pre-trained weights, and this view has also been confirmed in training other one-stage detectors [43].
미세 조정은 네트워크 프레임 워크마다 다른 영향을 미친다는 결론을 내 렸습니다. Faster-RCNN이 처음부터 훈련 된 상태에서 정상적으로 수렴하기가 매우 어렵 기 때문에 Faster-RCNN을 훈련하려면 미세 조정을 사용해야합니다. 사전 훈련 된 가중치를 사용하여 YOLO-V3를 미세 조정할 때 효과는 처음부터 훈련하는 것보다 더 나쁩니다. 이 결과의 주된 이유는 석탄 및 맥석과는 매우 다른 COCO 데이터 세트에서 객체를 식별하기 위해 사전 훈련 된 가중치가 훈련 되었기 때문에 처음부터 훈련이 석탄 및 맥석의 특성에 더 잘 맞을 것입니다. 작업 개체 데이터 세트가 충분할 경우 미세 조정은 대상 작업에 대한 수렴 속도 만 높이는 것으로보고되어 네트워크 감지에 도움이되지 않습니다 [ 41 , 42]. Faster-RCNN의 구조로 인해 배치 크기는 단일 그래픽 카드에서 1–2 (메모리 제한)로만 설정할 수 있으며, 이것이 바로 Faster-RCNN이 사전 훈련 된 가중치로 훈련하지 않으면 정상적으로 수렴 할 수없는 이유입니다. 반면, 1 단계 감지기 인 YOLO-V3는 단일 그래픽 카드에서 더 큰 배치 크기를 설정할 수 있으므로 사전 학습 된 가중치없이 정상적으로 수렴 할 수 있으며,이보기는 다른 1 단계 감지기 학습에서도 확인되었습니다. 43 ].

In addition, the sum of TP, FP, TN and FN of each method both exceeds the size of test dataset (800), which is caused by the over-segmentation of same object in the detection network. When the detector in cascade network over-segment some objects, the fact that bounding box does not contain a whole coal or gangue particle will affect the identification accuracy of the later discriminator, which is also why the test accuracy mentioned in subsection 4.2 is 88.625% (lower than 89.75% in subsection 4.1) when the decision is only affected by the discriminator. In general, the cascade network proposed in this study has better performance than other existing detection network in the coal and gangue dataset. The mAP obtained by the cascade network is about 12 and 7.85 higher than that of YOLO-V3 and Faster-RCNN, respectively, indicating that cascade method can greatly improve the accuracy of a single detector.
또한 각 방법의 TP, FP, TN 및 FN의 합이 모두 테스트 데이터 세트 (800)의 크기를 초과하는데, 이는 탐지 네트워크에서 동일한 개체의 과도한 세분화로 인해 발생합니다. 캐스케이드 네트워크의 검출기가 일부 물체를 과도하게 세분화 할 때 경계 상자에 전체 석탄 또는 맥석 입자가 포함되지 않는다는 사실이 이후 판별 기의 식별 정확도에 영향을 미치므로 하위 섹션 4.2에서 언급 된 테스트 정확도가 88.625 %입니다. (서브 섹션 4.1에서 89.75 % 미만) 결정이 판별 자에 의해서만 영향을받는 경우. 일반적으로이 연구에서 제안한 캐스케이드 네트워크는 석탄 및 맥석 데이터 세트에서 기존의 다른 탐지 네트워크보다 성능이 우수합니다. 캐스케이드 네트워크에서 얻은 mAP는 YOLO-V3 및 Faster-RCNN보다 각각 약 12 ​​및 7.85 높습니다.

The time efficiency is crucial for detection in real-time. The YOLO-V3's average test time for one raw coal image is 0.0302 s, and the corresponding average test time for Faster-RCNN's is 0.5832 s under the same graphics card. The large runtime difference is the main reason for choosing YOLO-V3 as the detector in the cascade network. The runtime of cascade network is 0.0302 s + N*0.0122 s, where 0.0302 s is the detector loss time, N is the number of objects in one image, and 0.0122 s is the optimized discriminator loss time for one object, including the time loss caused by the traditional image processing (0.0039 s) and CNN (0.0083 s). Therefore, the runtime of cascade network is affected by the number of objects in the detection image. After a simple calculation, it can be concluded that when more than 45 objects appear in one image, cascade network will be slower than Faster-RCNN. In our experimental equipment, the time for the object to pass the detection vision will be 1.23 s, when the length of the detection vision is 61.5 cm and the belt speed is 50 cm/s. Therefore, it can be concluded that the maximum number of objects in one detection image allowed by cascade network is 98 based on 1.23 s. Through the analysis of dataset in subsection 3.2, it can be concluded that the average number of objects in one detection image is 40, so the cascade network is completely suitable for real-time needs. In addition, model pruning and other model lightweight methods can be used to make the network more efficient, which can further reduce the time loss of the cascade network and make the method proposed in this paper suitable for situations with stringent real-time requirements [44].
시간 효율성은 실시간 탐지에 매우 중요합니다. 하나의 원시 석탄 이미지에 대한 YOLO-V3의 평균 테스트 시간은 0.0302 초이고 Faster-RCNN의 해당 평균 테스트 시간은 동일한 그래픽 카드에서 0.5832 초입니다. 큰 런타임 차이는 캐스케이드 네트워크에서 YOLO-V3를 감지기로 선택하는 주된 이유입니다. 캐스케이드 네트워크의 런타임은 0.0302 초 + N * 0.0122 초입니다. 여기서 0.0302 초는 검출기 손실 시간, N은 한 이미지의 객체 수, 0.0122 초는 시간 손실을 포함하여 하나의 객체에 대해 최적화 된 판별 기 손실 시간입니다. 기존 이미지 처리 (0.0039 초) 및 CNN (0.0083 초)으로 인해 발생합니다. 따라서 캐스케이드 네트워크의 실행 시간은 감지 이미지의 개체 수에 영향을받습니다. 간단한 계산으로 45 개 이상의 물체가 하나의 이미지에 나타날 때 캐스케이드 네트워크는 Faster-RCNN보다 느립니다. 실험 장비에서 물체가 감지 비전을 통과하는 데 걸리는 시간은 감지 비전의 길이가 61.5cm이고 벨트 속도가 50cm / s 일 때 1.23 초입니다. 따라서 캐스케이드 네트워크에서 허용되는 하나의 감지 이미지에서 허용되는 최대 물체 수는 1.23 초를 기준으로 98 개라고 결론을 내릴 수 있습니다. 하위 섹션 3.2의 데이터 세트 분석을 통해 한 감지 이미지의 평균 개체 수가 40 개이므로 캐스케이드 네트워크는 실시간 요구에 완벽하게 적합하다는 결론을 내릴 수 있습니다. 또한 모델 프 루닝 및 기타 모델 경량 방법을 사용하여 네트워크를보다 효율적으로 만들 수 있으므로 캐스케이드 네트워크의 시간 손실을 더욱 줄일 수 있으며이 문서에서 제안한 방법을 엄격한 실시간 요구 사항이있는 상황에 적합하게 만들 수 있습니다.44 ].

4.4. Analysis of network classification basis using visualization technique
시각화 기법을 이용한 네트워크 분류 기반 분석

The output of the convolutional layer after activation was visualized as shown in Fig. 8. Lower layers mainly extract low-level features in the images such as the edges and textures of objects, and at this stage all the information of the image in the output was basically retained. With increasing numbers of layers, the output in the higher layers become abstract, and the information retained by each convolution kernel also decreases. However, as the total number of convolution kernels is also increased, the features extracted by the network are generally more abundant. This conclusion is consistent with previous work [45].
활성화 후 컨벌루션 계층의 출력은 그림 8 과 같이 시각화되었습니다 . 하위 레이어는 주로 이미지에서 개체의 가장자리 및 질감과 같은 저수준 특징을 추출하며이 단계에서는 출력에있는 이미지의 모든 정보가 기본적으로 유지되었습니다. 계층 수가 증가함에 따라 상위 계층의 출력은 추상이되고 각 컨볼 루션 커널에서 보유하는 정보도 감소합니다. 그러나 전체 컨볼 루션 커널 수가 증가함에 따라 일반적으로 네트워크에서 추출한 기능이 더 풍부합니다. 이 결론은 이전 연구 [ 45 ] 와 일치 합니다.

Fig. 8. Visualization of intermediate CNN outputs. 중간 CNN 출력 시각화.

It was noticed that, both in lower and higher layers, several blank outputs were produced, implying that those convolution kernels did not find the desired features in the input images. If these redundant convolution kernels could be removed, or they could find new features, the performance of the network would be further improved. This will be the focus of our future work.
하위 레이어와 상위 레이어 모두에서 여러 개의 빈 출력이 생성되어 이러한 컨볼 루션 커널이 입력 이미지에서 원하는 기능을 찾지 못했음을 의미합니다. 이러한 중복 컨볼 루션 커널을 제거하거나 새로운 기능을 찾을 수 있다면 네트워크 성능이 더욱 향상 될 것입니다. 이것이 우리의 미래 작업의 초점이 될 것입니다

The class activation heatmaps are shown in Fig. 9. Coal and gangue in the raw materials inevitably collide during the transportation and screening processes. Fig. 9 shows that most of the highly activated areas are the truncated surfaces generated by collisions between the fragments of coal and gangue, whereas activation is limited in areas with relatively intact surfaces covered with coal slime. Truncated coal surfaces are generally black and brightly reflective due to the large vitreous component content in coal at the microscopic level. Gangue does not have this characteristic, so its truncated surface is generally grey and dim. Thus it can be surmised that CNN accurately captures this difference and forms the primary basis of classification. When traditional image processing methods were used in a previous study to analyze the features of the truncated surfaces [46], it was also believed that truncated surface features are more reliable for classification. It is suggested that the method of CNN automatic extraction and classification of truncated surface features is consistent with the mechanism of human vision, which recognizes features despite coal slime adhesion.
클래스 활성화 히트 맵은 그림 9에 나와 있습니다. 원료의 석탄과 맥석은 운송 및 선별 과정에서 불가피하게 충돌합니다. 그림 9고도로 활성화 된 영역의 대부분은 석탄과 맥석 조각 사이의 충돌에 의해 생성 된 잘린 표면 인 반면 활성화는 석탄 슬라임으로 덮인 상대적으로 손상되지 않은 표면이있는 영역에서 제한됩니다. 잘린 석탄 표면은 일반적으로 흑색이며 현미경 수준에서 석탄의 유리 성분 함량이 크기 때문에 밝게 반사됩니다. Gangue에는 이러한 특성이 없으므로 잘린 표면은 일반적으로 회색이고 어둡습니다. 따라서 CNN이 이러한 차이를 정확하게 포착하고 분류의 기본 기반을 형성한다고 추측 할 수 있습니다. 잘린 표면의 특징을 분석하기 위해 이전 연구에서 전통적인 이미지 처리 방법을 사용했을 때 [ 46], 잘린 표면 피쳐가 분류에 더 신뢰할 수 있다고 믿었습니다. CNN 자동 추출 및 잘린 표면 특징의 분류 방법은 석탄 슬라임 접착에도 불구하고 특징을 인식하는 인간 시각의 메커니즘과 일치한다고 제안됩니다.

Fig. 9. Visualization of class activation heatmaps in an image.
이미지에서 클래스 활성화 히트 맵 시각화.

5. Conclusions /  결론

A coal and gangue detection network is proposed that consists of a detector and discriminator, based on the idea of cascade networks and combining traditional computer vision with deep learning. Setting a multi-channel feature fusion layer and optimizing the loss function and classifier of CNN in the discriminator has effectively improved the accuracy of recognizing between coal and gangue in the raw materials on a conveyor belt during mining production by cascade network. The accuracy of the cascade network is 91.375%, which is higher than the results using YOLO-V3 and Faster-RCNN. The features of the images extracted by CNN were visualized, and the heatmaps of class activation were analyzed. The experimental results show that the CNN trained in this study was adept at capturing the difference between the truncated surfaces of the coal and gangue, which formed the basis for classification. This work contributes to ongoing investigations of the separation and surface characteristics of coal and gangue.
캐스케이드 네트워크의 아이디어를 기반으로 전통적인 컴퓨터 비전과 딥 러닝을 결합한 검출기와 판별기로 구성된 석탄 및 맥석 검출 네트워크가 제안됩니다. 다중 채널 피처 융합 레이어를 설정하고 판별 기에서 CNN의 손실 함수 및 분류기를 최적화하면 캐스케이드 네트워크를 통한 채굴 생산시 컨베이어 벨트의 원료에서 석탄과 맥석 사이의 인식 정확도가 효과적으로 향상되었습니다. 캐스케이드 네트워크의 정확도는 91.375 %로 YOLO-V3 및 Faster-RCNN을 사용한 결과보다 높습니다. CNN에서 추출한 이미지의 특징을 시각화하고 클래스 활성화의 히트 맵을 분석했습니다. 실험 결과는이 연구에서 훈련 된 CNN이 석탄과 맥석의 잘린 표면 사이의 차이를 포착하는 데 능숙했음을 보여줍니다. 분류의 기초를 형성했습니다. 이 작업은 석탄과 맥석의 분리 및 표면 특성에 대한 지속적인 조사에 기여합니다.

728x90
반응형