Untitled

ame,Start Time(ns),Duration(ns),GridX,GridY,GridZ,BlockX,BlockY,BlockZ,Registers/Thread,Static Shared Memory,Dynamic Shared Memory,Issue Stall Reasons (Execution Dependency)(%),Issue Stall Reasons (Data Request)(%),Issue Stall Reasons (Texture)(%),Issue Stall Reasons (Synchronization)(%),Issue Stall Reasons (Other)(%),Issue Stall Reasons (Immediate constant)(%),Issue Stall Reasons (Pipe Busy)(%),Shared Memory Efficiency(%),FP Instructions(Single),FP Instructions(Double),Integer Instructions,Bit-Convert Instructions,Control-Flow Instructions,Load/Store Instructions,Misc Instructions,Inter-Thread Instructions,Issue Slots,Issued Control-Flow Instructions,Issued Load/Store Instructions,Atomic Transactions,L2 Throughput (Atomic requests)(bytes/sec),L2 Transactions (Atomic requests),L2 Transactions (Texture Reads),Issue Stall Reasons (Memory Throttle)(%),Issue Stall Reasons (Not Selected)(%),L2 Transactions (Texture Writes),Floating Point Operations(Half Precision Add),Floating Point Operation(Half Precision Mul),Floating Point Operations(Half Precision FMA),HP Instructions(Half),Issue Slot Utilization(%),Achieved Occupancy,Shared Memory Utilization,L2 Cache Utilization,Unified Cache Utilization,Load/Store Function Unit Utilization,Control-Flow Function Unit Utilization,Texture Function Unit Utilization,Special Function Unit Utilization,Half-Precision Function Unit Utilization,Warp Execution Efficiency(%),Warp Non-Predicated Execution Efficiency(%),Shared Store Transactions,Shared Load Transactions,Local Load Transactions,Local Store Transactions,Global Load Transactions,Global Store Transactions,System Memory Read Transactions,System Memory Write Transactions,L2 Read Transactions,L2 Write Transactions,Device Memory Read Transactions,Device Memory Write Transactions,Global Load Throughput(bytes/sec),Global Store Throughput(bytes/sec),Local Memory Overhead(%),Unified Cache Hit Rate(%),Device Memory Read Throughput(bytes/sec),Device Memory Write Throughput(bytes/sec),Unified cache to Multiprocessor throughput(bytes/sec),L2 Throughput (Texture Reads)(bytes/sec),L2 Throughput (Texture Writes)(bytes/sec),L2 Throughput (Reads)(bytes/sec),L2 Throughput (Writes)(bytes/sec),System Memory Read Throughput(bytes/sec),System Memory Write Throughput(bytes/sec),Local Memory Load Throughput(bytes/sec),Local Memory Store Throughput(bytes/sec),Shared Memory Load Throughput(bytes/sec),Shared Memory Store Throughput(bytes/sec),Global Memory Load Efficiency(%),Global Memory Store Efficiency(%),Unified cache to Multiprocessor transactions,Floating Point Operations(Double Precision Add),Floating Point Operations(Double Precision FMA),Floating Point Operations(Double Precision Mul),Floating Point Operations(Single Precision Add),Floating Point Operations(Single Precision FMA),Floating Point Operation(Single Precision Mul),Floating Point Operations(Single Precision Special),Instructions Executed,Instructions Issued,Device Memory Utilization,System Memory Utilization,Issue Stall Reasons (Instructions Fetch)(%),Single-Precision Function Unit Utilization,Double-Precision Function Unit Utilization,Warp level instructions for global loads,Warp level instructions for local loads,Warp level instructions for shared loads,Warp level instructions for surface loads,Warp level instructions for global stores,Warp level instructions for local stores,Warp level instructions for shared stores,Warp level instructions for surface stores,Warp level instructions for global atom and atom cas,Warp level instructions for global reductions,Warp level instructions for surface atom and atom cas,Warp level instructions for surface reductions,Warp level shared instructions for atom and atom CAS,Warp level instructions for texture,Total bytes read from DRAM to L2 cache,Total bytes written from L2 cache to DRAM,Total number of global load requests from Multiprocessor,Total number of local load requests from Multiprocessor,Total number of surface load requests from Multiprocessor,Total number of surface store requests from Multiprocessor,Total number of global reduction requests from Multiprocessor,Total number of surface atomic requests from Multiprocessor,Total number of surface reduction requests from Multiprocessor,Bytes read from L2 for misses in L1 for global loads,Bytes read from L2 for misses in L1 for local loads,Bytes read from L2 for misses in L1 for surface loads,Bytes written to L2 from L1 for global atomics,Bytes read from L2 for misses in L1 for surface stores,System Memory Read Bytes,System Memory Write Bytes,L2 Cache Hit Rate(%),Total number of texture Load requests from Multiprocessor
"mxnet::op::forward_kernel(float*, float const *, float const *, int, int, int, int, int, int)",3489722319,26999888,10000,12,25,16,16,1,32,0,0,18.475,48.701,0,0,4.599,0.029,7.848,0,13836000000,768000000,108863040000,3072000000,13313280000,26658720000,21793440000,0,7653967203,1057800000,1200600000,0,0,0,151132292,2.922,14.834,95040000,0,0,0,0,66.731,0.822,Idle,Low (1),Mid (5),Mid (5),Low (2),Idle,Low (1),Idle,84.969,76.886,0,0,0,0,2969942146,95040000,0,5,151128414,95040022,201564626,95094933,3519946033553,112640467249,0.025,91.968,238892399553,112705573297,6085780489756,179120496499,112640467249,179115900332,112640493323,0,5925,0,0,0,0,57.084,68.75,1283713997,0,0,768000000,0,13068000000,0,768000000,7653600000,7653967203,Mid (6),Low (1),2.592,Mid (4),Low (1),990000000,0,0,0,19800000,0,0,0,0,0,0,0,0,0,6450068032,3043037856,990000000,0,0,0,0,0,0,4834277568,0,0,0,0,0,160,5.772,0