idr_remove(&htt->pending_tx, msdu_id);
 }
 
-static void ath10k_htt_tx_free_cont_txbuf(struct ath10k_htt *htt)
+static void ath10k_htt_tx_free_cont_txbuf_32(struct ath10k_htt *htt)
 {
        struct ath10k *ar = htt->ar;
        size_t size;
 
-       if (!htt->txbuf.vaddr)
+       if (!htt->txbuf.vaddr_txbuff_32)
                return;
 
-       size = htt->max_num_pending_tx * sizeof(struct ath10k_htt_txbuf);
-       dma_free_coherent(ar->dev, size, htt->txbuf.vaddr, htt->txbuf.paddr);
-       htt->txbuf.vaddr = NULL;
+       size = htt->txbuf.size;
+       dma_free_coherent(ar->dev, size, htt->txbuf.vaddr_txbuff_32,
+                         htt->txbuf.paddr);
+       htt->txbuf.vaddr_txbuff_32 = NULL;
 }
 
-static int ath10k_htt_tx_alloc_cont_txbuf(struct ath10k_htt *htt)
+static int ath10k_htt_tx_alloc_cont_txbuf_32(struct ath10k_htt *htt)
 {
        struct ath10k *ar = htt->ar;
        size_t size;
 
-       size = htt->max_num_pending_tx * sizeof(struct ath10k_htt_txbuf);
-       htt->txbuf.vaddr = dma_alloc_coherent(ar->dev, size, &htt->txbuf.paddr,
-                                             GFP_KERNEL);
-       if (!htt->txbuf.vaddr)
+       size = htt->max_num_pending_tx *
+                       sizeof(struct ath10k_htt_txbuf_32);
+
+       htt->txbuf.vaddr_txbuff_32 = dma_alloc_coherent(ar->dev, size,
+                                                       &htt->txbuf.paddr,
+                                                       GFP_KERNEL);
+       if (!htt->txbuf.vaddr_txbuff_32)
+               return -ENOMEM;
+
+       htt->txbuf.size = size;
+
+       return 0;
+}
+
+static void ath10k_htt_tx_free_cont_txbuf_64(struct ath10k_htt *htt)
+{
+       struct ath10k *ar = htt->ar;
+       size_t size;
+
+       if (!htt->txbuf.vaddr_txbuff_64)
+               return;
+
+       size = htt->txbuf.size;
+       dma_free_coherent(ar->dev, size, htt->txbuf.vaddr_txbuff_64,
+                         htt->txbuf.paddr);
+       htt->txbuf.vaddr_txbuff_64 = NULL;
+}
+
+static int ath10k_htt_tx_alloc_cont_txbuf_64(struct ath10k_htt *htt)
+{
+       struct ath10k *ar = htt->ar;
+       size_t size;
+
+       size = htt->max_num_pending_tx *
+                       sizeof(struct ath10k_htt_txbuf_64);
+
+       htt->txbuf.vaddr_txbuff_64 = dma_alloc_coherent(ar->dev, size,
+                                                       &htt->txbuf.paddr,
+                                                       GFP_KERNEL);
+       if (!htt->txbuf.vaddr_txbuff_64)
                return -ENOMEM;
 
+       htt->txbuf.size = size;
+
        return 0;
 }
 
        struct ath10k *ar = htt->ar;
        int ret;
 
-       ret = ath10k_htt_tx_alloc_cont_txbuf(htt);
+       ret = htt->tx_ops->htt_alloc_txbuff(htt);
        if (ret) {
                ath10k_err(ar, "failed to alloc cont tx buffer: %d\n", ret);
                return ret;
        htt->tx_ops->htt_free_frag_desc(htt);
 
 free_txbuf:
-       ath10k_htt_tx_free_cont_txbuf(htt);
+       htt->tx_ops->htt_free_txbuff(htt);
 
        return ret;
 }
        if (!htt->tx_mem_allocated)
                return;
 
-       ath10k_htt_tx_free_cont_txbuf(htt);
+       htt->tx_ops->htt_free_txbuff(htt);
        ath10k_htt_tx_free_txq(htt);
        htt->tx_ops->htt_free_frag_desc(htt);
        ath10k_htt_tx_free_txdone_fifo(htt);
        return res;
 }
 
-int ath10k_htt_tx(struct ath10k_htt *htt, enum ath10k_hw_txrx_mode txmode,
-                 struct sk_buff *msdu)
+static int ath10k_htt_tx_32(struct ath10k_htt *htt,
+                           enum ath10k_hw_txrx_mode txmode,
+                           struct sk_buff *msdu)
 {
        struct ath10k *ar = htt->ar;
        struct device *dev = ar->dev;
        struct ieee80211_tx_info *info = IEEE80211_SKB_CB(msdu);
        struct ath10k_skb_cb *skb_cb = ATH10K_SKB_CB(msdu);
        struct ath10k_hif_sg_item sg_items[2];
-       struct ath10k_htt_txbuf *txbuf;
+       struct ath10k_htt_txbuf_32 *txbuf;
        struct htt_data_tx_desc_frag *frags;
        bool is_eth = (txmode == ATH10K_HW_TXRX_ETHERNET);
        u8 vdev_id = ath10k_htt_tx_get_vdev_id(ar, msdu);
        prefetch_len = min(htt->prefetch_len, msdu->len);
        prefetch_len = roundup(prefetch_len, 4);
 
-       txbuf = &htt->txbuf.vaddr[msdu_id];
+       txbuf = htt->txbuf.vaddr_txbuff_32 + msdu_id;
        txbuf_paddr = htt->txbuf.paddr +
-                     (sizeof(struct ath10k_htt_txbuf) * msdu_id);
+                     (sizeof(struct ath10k_htt_txbuf_32) * msdu_id);
 
        if ((ieee80211_is_action(hdr->frame_control) ||
             ieee80211_is_deauth(hdr->frame_control) ||
 
        trace_ath10k_htt_tx(ar, msdu_id, msdu->len, vdev_id, tid);
        ath10k_dbg(ar, ATH10K_DBG_HTT,
-                  "htt tx flags0 %hhu flags1 %hu len %d id %hu frags_paddr %08x, msdu_paddr %08x vdev %hhu tid %hhu freq %hu\n",
-                  flags0, flags1, msdu->len, msdu_id, frags_paddr,
-                  (u32)skb_cb->paddr, vdev_id, tid, freq);
+                  "htt tx flags0 %hhu flags1 %hu len %d id %hu frags_paddr %pad, msdu_paddr %pad vdev %hhu tid %hhu freq %hu\n",
+                  flags0, flags1, msdu->len, msdu_id, &frags_paddr,
+                  &skb_cb->paddr, vdev_id, tid, freq);
+       ath10k_dbg_dump(ar, ATH10K_DBG_HTT_DUMP, NULL, "htt tx msdu: ",
+                       msdu->data, msdu->len);
+       trace_ath10k_tx_hdr(ar, msdu->data, msdu->len);
+       trace_ath10k_tx_payload(ar, msdu->data, msdu->len);
+
+       sg_items[0].transfer_id = 0;
+       sg_items[0].transfer_context = NULL;
+       sg_items[0].vaddr = &txbuf->htc_hdr;
+       sg_items[0].paddr = txbuf_paddr +
+                           sizeof(txbuf->frags);
+       sg_items[0].len = sizeof(txbuf->htc_hdr) +
+                         sizeof(txbuf->cmd_hdr) +
+                         sizeof(txbuf->cmd_tx);
+
+       sg_items[1].transfer_id = 0;
+       sg_items[1].transfer_context = NULL;
+       sg_items[1].vaddr = msdu->data;
+       sg_items[1].paddr = skb_cb->paddr;
+       sg_items[1].len = prefetch_len;
+
+       res = ath10k_hif_tx_sg(htt->ar,
+                              htt->ar->htc.endpoint[htt->eid].ul_pipe_id,
+                              sg_items, ARRAY_SIZE(sg_items));
+       if (res)
+               goto err_unmap_msdu;
+
+       return 0;
+
+err_unmap_msdu:
+       dma_unmap_single(dev, skb_cb->paddr, msdu->len, DMA_TO_DEVICE);
+err_free_msdu_id:
+       ath10k_htt_tx_free_msdu_id(htt, msdu_id);
+err:
+       return res;
+}
+
+static int ath10k_htt_tx_64(struct ath10k_htt *htt,
+                           enum ath10k_hw_txrx_mode txmode,
+                           struct sk_buff *msdu)
+{
+       struct ath10k *ar = htt->ar;
+       struct device *dev = ar->dev;
+       struct ieee80211_hdr *hdr = (struct ieee80211_hdr *)msdu->data;
+       struct ieee80211_tx_info *info = IEEE80211_SKB_CB(msdu);
+       struct ath10k_skb_cb *skb_cb = ATH10K_SKB_CB(msdu);
+       struct ath10k_hif_sg_item sg_items[2];
+       struct ath10k_htt_txbuf_64 *txbuf;
+       struct htt_data_tx_desc_frag *frags;
+       bool is_eth = (txmode == ATH10K_HW_TXRX_ETHERNET);
+       u8 vdev_id = ath10k_htt_tx_get_vdev_id(ar, msdu);
+       u8 tid = ath10k_htt_tx_get_tid(msdu, is_eth);
+       int prefetch_len;
+       int res;
+       u8 flags0 = 0;
+       u16 msdu_id, flags1 = 0;
+       u16 freq = 0;
+       dma_addr_t frags_paddr = 0;
+       u32 txbuf_paddr;
+       struct htt_msdu_ext_desc_64 *ext_desc = NULL;
+       struct htt_msdu_ext_desc_64 *ext_desc_t = NULL;
+
+       spin_lock_bh(&htt->tx_lock);
+       res = ath10k_htt_tx_alloc_msdu_id(htt, msdu);
+       spin_unlock_bh(&htt->tx_lock);
+       if (res < 0)
+               goto err;
+
+       msdu_id = res;
+
+       prefetch_len = min(htt->prefetch_len, msdu->len);
+       prefetch_len = roundup(prefetch_len, 4);
+
+       txbuf = htt->txbuf.vaddr_txbuff_64 + msdu_id;
+       txbuf_paddr = htt->txbuf.paddr +
+                     (sizeof(struct ath10k_htt_txbuf_64) * msdu_id);
+
+       if ((ieee80211_is_action(hdr->frame_control) ||
+            ieee80211_is_deauth(hdr->frame_control) ||
+            ieee80211_is_disassoc(hdr->frame_control)) &&
+            ieee80211_has_protected(hdr->frame_control)) {
+               skb_put(msdu, IEEE80211_CCMP_MIC_LEN);
+       } else if (!(skb_cb->flags & ATH10K_SKB_F_NO_HWCRYPT) &&
+                  txmode == ATH10K_HW_TXRX_RAW &&
+                  ieee80211_has_protected(hdr->frame_control)) {
+               skb_put(msdu, IEEE80211_CCMP_MIC_LEN);
+       }
+
+       skb_cb->paddr = dma_map_single(dev, msdu->data, msdu->len,
+                                      DMA_TO_DEVICE);
+       res = dma_mapping_error(dev, skb_cb->paddr);
+       if (res) {
+               res = -EIO;
+               goto err_free_msdu_id;
+       }
+
+       if (unlikely(info->flags & IEEE80211_TX_CTL_TX_OFFCHAN))
+               freq = ar->scan.roc_freq;
+
+       switch (txmode) {
+       case ATH10K_HW_TXRX_RAW:
+       case ATH10K_HW_TXRX_NATIVE_WIFI:
+               flags0 |= HTT_DATA_TX_DESC_FLAGS0_MAC_HDR_PRESENT;
+               /* pass through */
+       case ATH10K_HW_TXRX_ETHERNET:
+               if (ar->hw_params.continuous_frag_desc) {
+                       ext_desc_t = htt->frag_desc.vaddr_desc_64;
+                       memset(&ext_desc_t[msdu_id], 0,
+                              sizeof(struct htt_msdu_ext_desc_64));
+                       frags = (struct htt_data_tx_desc_frag *)
+                               &ext_desc_t[msdu_id].frags;
+                       ext_desc = &ext_desc_t[msdu_id];
+                       frags[0].tword_addr.paddr_lo =
+                               __cpu_to_le32(skb_cb->paddr);
+                       frags[0].tword_addr.paddr_hi =
+                               __cpu_to_le16(upper_32_bits(skb_cb->paddr));
+                       frags[0].tword_addr.len_16 = __cpu_to_le16(msdu->len);
+
+                       frags_paddr =  htt->frag_desc.paddr +
+                          (sizeof(struct htt_msdu_ext_desc_64) * msdu_id);
+               } else {
+                       frags = txbuf->frags;
+                       frags[0].tword_addr.paddr_lo =
+                                               __cpu_to_le32(skb_cb->paddr);
+                       frags[0].tword_addr.paddr_hi =
+                               __cpu_to_le16(upper_32_bits(skb_cb->paddr));
+                       frags[0].tword_addr.len_16 = __cpu_to_le16(msdu->len);
+                       frags[1].tword_addr.paddr_lo = 0;
+                       frags[1].tword_addr.paddr_hi = 0;
+                       frags[1].tword_addr.len_16 = 0;
+               }
+               flags0 |= SM(txmode, HTT_DATA_TX_DESC_FLAGS0_PKT_TYPE);
+               break;
+       case ATH10K_HW_TXRX_MGMT:
+               flags0 |= SM(ATH10K_HW_TXRX_MGMT,
+                            HTT_DATA_TX_DESC_FLAGS0_PKT_TYPE);
+               flags0 |= HTT_DATA_TX_DESC_FLAGS0_MAC_HDR_PRESENT;
+
+               frags_paddr = skb_cb->paddr;
+               break;
+       }
+
+       /* Normally all commands go through HTC which manages tx credits for
+        * each endpoint and notifies when tx is completed.
+        *
+        * HTT endpoint is creditless so there's no need to care about HTC
+        * flags. In that case it is trivial to fill the HTC header here.
+        *
+        * MSDU transmission is considered completed upon HTT event. This
+        * implies no relevant resources can be freed until after the event is
+        * received. That's why HTC tx completion handler itself is ignored by
+        * setting NULL to transfer_context for all sg items.
+        *
+        * There is simply no point in pushing HTT TX_FRM through HTC tx path
+        * as it's a waste of resources. By bypassing HTC it is possible to
+        * avoid extra memory allocations, compress data structures and thus
+        * improve performance.
+        */
+
+       txbuf->htc_hdr.eid = htt->eid;
+       txbuf->htc_hdr.len = __cpu_to_le16(sizeof(txbuf->cmd_hdr) +
+                                          sizeof(txbuf->cmd_tx) +
+                                          prefetch_len);
+       txbuf->htc_hdr.flags = 0;
+
+       if (skb_cb->flags & ATH10K_SKB_F_NO_HWCRYPT)
+               flags0 |= HTT_DATA_TX_DESC_FLAGS0_NO_ENCRYPT;
+
+       flags1 |= SM((u16)vdev_id, HTT_DATA_TX_DESC_FLAGS1_VDEV_ID);
+       flags1 |= SM((u16)tid, HTT_DATA_TX_DESC_FLAGS1_EXT_TID);
+       if (msdu->ip_summed == CHECKSUM_PARTIAL &&
+           !test_bit(ATH10K_FLAG_RAW_MODE, &ar->dev_flags)) {
+               flags1 |= HTT_DATA_TX_DESC_FLAGS1_CKSUM_L3_OFFLOAD;
+               flags1 |= HTT_DATA_TX_DESC_FLAGS1_CKSUM_L4_OFFLOAD;
+               if (ar->hw_params.continuous_frag_desc)
+                       ext_desc->flags |= HTT_MSDU_CHECKSUM_ENABLE;
+       }
+
+       /* Prevent firmware from sending up tx inspection requests. There's
+        * nothing ath10k can do with frames requested for inspection so force
+        * it to simply rely a regular tx completion with discard status.
+        */
+       flags1 |= HTT_DATA_TX_DESC_FLAGS1_POSTPONED;
+
+       txbuf->cmd_hdr.msg_type = HTT_H2T_MSG_TYPE_TX_FRM;
+       txbuf->cmd_tx.flags0 = flags0;
+       txbuf->cmd_tx.flags1 = __cpu_to_le16(flags1);
+       txbuf->cmd_tx.len = __cpu_to_le16(msdu->len);
+       txbuf->cmd_tx.id = __cpu_to_le16(msdu_id);
+
+       /* fill fragment descriptor */
+       txbuf->cmd_tx.frags_paddr = __cpu_to_le64(frags_paddr);
+       if (ath10k_mac_tx_frm_has_freq(ar)) {
+               txbuf->cmd_tx.offchan_tx.peerid =
+                               __cpu_to_le16(HTT_INVALID_PEERID);
+               txbuf->cmd_tx.offchan_tx.freq =
+                               __cpu_to_le16(freq);
+       } else {
+               txbuf->cmd_tx.peerid =
+                               __cpu_to_le32(HTT_INVALID_PEERID);
+       }
+
+       trace_ath10k_htt_tx(ar, msdu_id, msdu->len, vdev_id, tid);
+       ath10k_dbg(ar, ATH10K_DBG_HTT,
+                  "htt tx flags0 %hhu flags1 %hu len %d id %hu frags_paddr %pad, msdu_paddr %pad vdev %hhu tid %hhu freq %hu\n",
+                  flags0, flags1, msdu->len, msdu_id, &frags_paddr,
+                  &skb_cb->paddr, vdev_id, tid, freq);
        ath10k_dbg_dump(ar, ATH10K_DBG_HTT_DUMP, NULL, "htt tx msdu: ",
                        msdu->data, msdu->len);
        trace_ath10k_tx_hdr(ar, msdu->data, msdu->len);
        .htt_send_frag_desc_bank_cfg = ath10k_htt_send_frag_desc_bank_cfg_32,
        .htt_alloc_frag_desc = ath10k_htt_tx_alloc_cont_frag_desc_32,
        .htt_free_frag_desc = ath10k_htt_tx_free_cont_frag_desc_32,
+       .htt_tx = ath10k_htt_tx_32,
+       .htt_alloc_txbuff = ath10k_htt_tx_alloc_cont_txbuf_32,
+       .htt_free_txbuff = ath10k_htt_tx_free_cont_txbuf_32,
 };
 
 static const struct ath10k_htt_tx_ops htt_tx_ops_64 = {
        .htt_send_frag_desc_bank_cfg = ath10k_htt_send_frag_desc_bank_cfg_64,
        .htt_alloc_frag_desc = ath10k_htt_tx_alloc_cont_frag_desc_64,
        .htt_free_frag_desc = ath10k_htt_tx_free_cont_frag_desc_64,
+       .htt_tx = ath10k_htt_tx_64,
+       .htt_alloc_txbuff = ath10k_htt_tx_alloc_cont_txbuf_64,
+       .htt_free_txbuff = ath10k_htt_tx_free_cont_txbuf_64,
 };
 
 void ath10k_htt_set_tx_ops(struct ath10k_htt *htt)